节目列表: HuggingFace 每日AI论文速递 - EarsOnMe | 发现和收听来自小宇宙的热门播客

【周末特辑】9月第2周最火AI论文 | 高效图像编辑新方法，音频驱动头像创新技术

各位听众朋友，大家好！欢迎收听本周的“Hugging Face 每日AI论文速递”周末特辑。每周日，我们都会为您带来一周内Hugging Face上最热门的AI论文汇总。本期节目涵盖了2024年9月2日至2024年9月8日期间的热门论文。本期我们将为您介绍5篇精彩论文，内容涉及图像编辑的自引导机制、音频驱动的人物头像技术、胃肠道数据集的文本图像对、开放式混合专家语言模型，以及大语言模型中的注意力头调查。现在，让我们立即进入本期论文的精彩内容。 [00:40] TOP1(🔥80) | 🖼 Guide-and-Rescale: Self-Guidance Mechanism for Effective Tuning-Free Real Image Editing（引导与重缩放：一种无需调优的自引导机制实现高效真实图像编辑） [02:12] TOP2(🔥70) | 🎭 Loopy: Taming Audio-Driven Portrait Avatar with Long-Term Motion Dependency（Loopy：驯服音频驱动的人物头像与长期运动依赖） [04:11] TOP3(🔥64) | 📊 Kvasir-VQA: A Text-Image Pair GI Tract Dataset（Kvasir-VQA：一个带有文本图像对的胃肠道数据集） [06:17] TOP4(🔥60) | 🧠 OLMoE: Open Mixture-of-Experts Language Models（OLMoE：开放式混合专家语言模型） [08:43] TOP5(🔥60) | 🔍 Attention Heads of Large Language Models: A Survey（大语言模型中的注意力头：一项调查）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

10分钟

92

7个月前

2024.09.06 每日AI论文 | 注意力头机制解析，模糊测试效率提升

大家好，欢迎收听今天的'Hugging Face 每日AI论文速递'。今天是2024年9月06日，我们将带您快速浏览10篇热门AI论文，涵盖大语言模型、模糊测试、图像编辑、文档理解等多个前沿领域。现在，让我们立即进入今天的论文速递。 [00:23] 🔍 Attention Heads of Large Language Models: A Survey（大语言模型中的注意力头：一项调查） [01:10] 🧠 FuzzCoder: Byte-level Fuzzing Test via Large Language Model（FuzzCoder：基于大语言模型的字节级模糊测试） [01:49] 🖼 Guide-and-Rescale: Self-Guidance Mechanism for Effective Tuning-Free Real Image Editing（引导与重缩放：一种无需调优的自引导机制实现高效真实图像编辑） [02:20] 📊 CDM: A Reliable Metric for Fair and Accurate Formula Recognition Evaluation（CDM：一种公平且准确的公式识别评估指标） [02:54] 📄 mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding（mPLUG-DocOwl2：无OCR多页文档理解的高分辨率压缩） [03:32] 🤖 From MOOC to MAIC: Reshaping Online Teaching and Learning through LLM-driven Agents（从MOOC到MAIC：通过LLM驱动的代理重塑在线教学与学习） [04:10] 🌐 Geometry Image Diffusion: Fast and Data-Efficient Text-to-3D with Image-Based Surface Representation（几何图像扩散：基于图像表面表示的高效数据驱动文本到3D生成） [04:48] 🔍 WildVis: Open Source Visualizer for Million-Scale Chat Logs in the Wild（WildVis：百万级聊天日志的开源可视化工具） [05:25] 🧊 FrozenSeg: Harmonizing Frozen Foundation Models for Open-Vocabulary Segmentation（FrozenSeg: 协调冻结基础模型用于开放词汇分割） [05:59] 📄 Report Cards: Qualitative Evaluation of Language Models Using Natural Language Summaries（报告卡：使用自然语言摘要对语言模型进行定性评估）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

6分钟

55

7个月前

2024.09.05 每日AI论文 | 高效扩展多模态模型，音频驱动视频生成优化

大家好，欢迎收听今天的'Hugging Face 每日AI论文速递'。今天是2024年9月5日，我们将带您快速浏览8篇热门AI论文。本期内容涵盖了多模态大语言模型的扩展、音频驱动的人像化身、长上下文问答中的引用生成、多学科多模态理解基准的提升，以及代码预训练中的数据解密等多个前沿领域。现在，让我们立即进入今天的论文速递。 [00:31] 📊 LongLLaVA: Scaling Multi-modal LLMs to 1000 Images Efficiently via Hybrid Architecture（LongLLaVA：通过混合架构高效扩展多模态大语言模型至1000张图像） [01:13] 🎙 Loopy: Taming Audio-Driven Portrait Avatar with Long-Term Motion Dependency（Loopy: 驯服音频驱动的人像化身与长期运动依赖） [01:48] 📚 LongCite: Enabling LLMs to Generate Fine-grained Citations in Long-context QA（LongCite: 在长上下文问答中使LLMs生成细粒度引用的方法） [02:29] 📊 MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark（MMMU-Pro：一个更强大的多学科多模态理解基准） [03:02] 🧩 Arctic-SnowCoder: Demystifying High-Quality Data in Code Pretraining（北极雪编码器：解密代码预训练中的高质量数据） [03:39] 🗳 Political DEBATE: Efficient Zero-shot and Few-shot Classifiers for Political Text（政治辩论：高效的零样本和少样本政治文本分类器） [04:15] ⚡ FastVoiceGrad: One-step Diffusion-Based Voice Conversion with Adversarial Conditional Diffusion Distillation（FastVoiceGrad：一步扩散基于对抗条件扩散蒸馏的语音转换） [04:48] 🤖 Affordance-based Robot Manipulation with Flow Matching（基于流匹配的机器人操作框架）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

5分钟

39

7个月前

2024.09.04 每日AI论文 | Kvasir-VQA提升医疗诊断，LongRecipe扩展语言模型上下文

大家好，欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年9月04日，我们将带您快速浏览16篇热门AI论文，涵盖数据集、语言模型、视频生成等多个领域。现在，让我们立即进入今天的论文速递。 [00:22] 📊 Kvasir-VQA: A Text-Image Pair GI Tract Dataset（Kvasir-VQA：一个带有文本图像对的胃肠道数据集） [00:58] 📚 LongRecipe: Recipe for Efficient Long Context Generalization in Large Languge Models（LongRecipe：大型语言模型中高效长上下文泛化的训练策略） [01:43] 🧠 OLMoE: Open Mixture-of-Experts Language Models（OLMoE：开放式混合专家语言模型） [02:23] 🎶 FLUX that Plays Music（能播放音乐的FLUX） [03:00] 📹 DepthCrafter: Generating Consistent Long Depth Sequences for Open-world Videos（DepthCrafter：为开放世界视频生成一致的长深度序列） [03:41] 🎥 VideoLLaMB: Long-context Video Understanding with Recurrent Memory Bridges（VideoLLaMB：利用循环记忆桥进行长上下文视频理解） [04:24] 🎥 Compositional 3D-aware Video Generation with LLM Director（基于LLM导演的组合式3D感知视频生成） [05:02] 🤖 Diffusion Policy Policy Optimization（扩散策略优化） [05:37] 🚀 LinFusion: 1 GPU, 1 Minute, 16K Image（LinFusion：1 GPU，1分钟，16K图像） [06:28] 🔍 ContextCite: Attributing Model Generation to Context（ContextCite：将模型生成归因于上下文） [07:05] 📺 OD-VAE: An Omni-dimensional Video Compressor for Improving Latent Video Diffusion Model（OD-VAE：一种用于改进潜在视频扩散模型的全方位视频压缩器） [07:44] 📉 Accurate Compression of Text-to-Image Diffusion Models via Vector Quantization（通过向量量化实现文本到图像扩散模型的精确压缩） [08:21] 🎥 Follow-Your-Canvas: Higher-Resolution Video Outpainting with Extensive Content Generation（Follow-Your-Canvas：高分辨率视频外绘与广泛内容生成） [08:58] 🧠 Density Adaptive Attention-based Speech Network: Enhancing Feature Understanding for Mental Health Disorders（密度自适应注意力语音网络：增强心理健康障碍的特征理解） [09:35] 📚 Know When to Fuse: Investigating Non-English Hybrid Retrieval in the Legal Domain（了解何时融合：研究法律领域中的非英语混合检索） [10:10] 📚 The MERIT Dataset: Modelling and Efficiently Rendering Interpretable Transcripts（MERIT数据集：建模和高效渲染可解释的转录文本）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

11分钟

73

7个月前

2024.09.03 每日AI论文 | 视觉模型用于零样本时间序列预测，音频对话模型实时推理。

大家好，欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年9月03日，我们将带您快速了解两篇热门AI论文。首先是关于零样本时间序列预测的视觉掩码自编码器，其次是语言模型在流式传输中的多模态能力。精彩内容，马上开始！ [00:24] 🔍 VisionTS: Visual Masked Autoencoders Are Free-Lunch Zero-Shot Time Series Forecasters（VisionTS：视觉掩码自编码器是零样本时间序列预测的免费午餐） [01:10] 🗣 Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming（Mini-Omni：语言模型在流式传输中能听、能说、能思考）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

2分钟

63

7个月前

2024.09.02 每日AI论文 | 科学文献理解模型显著提升,文本到图像个性化方法优化。

大家好，欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年9月02日，我们将带您快速浏览14篇热门AI论文，涵盖科学文献理解、文本到图像个性化、多模态模型评估等多个前沿领域。现在，让我们立即进入精彩的论文世界。 [00:24] 📚 SciLitLLM: How to Adapt LLMs for Scientific Literature Understanding（SciLitLLM：如何适应大型语言模型以理解科学文献） [01:02] 🖼 CoRe: Context-Regularized Text Embedding Learning for Text-to-Image Personalization（CoRe：基于上下文正则化的文本嵌入学习在文本到图像个性化中的应用） [01:41] 🏙 UrBench: A Comprehensive Benchmark for Evaluating Large Multimodal Models in Multi-View Urban Scenarios（UrBench：在多视角城市场景中评估大型多模态模型的综合基准） [02:24] 📚 The VoxCeleb Speaker Recognition Challenge: A Retrospective（VoxCeleb说话人识别挑战回顾） [02:59] 🌍 InkubaLM: A small language model for low-resource African languages（InkubaLM：一种针对低资源非洲语言的小型语言模型） [03:46] 📚 CURLoRA: Stable LLM Continual Fine-Tuning and Catastrophic Forgetting Mitigation（CURLoRA：稳定的大型语言模型持续微调与灾难性遗忘缓解） [04:24] 🌐 CrossViewDiff: A Cross-View Diffusion Model for Satellite-to-Street View Synthesis（跨视图扩散模型：卫星视图到街景视图合成） [05:07] 📚 Jina-ColBERT-v2: A General-Purpose Multilingual Late Interaction Retriever（Jina-ColBERT-v2：一种通用多语言后期交互检索器） [05:38] 📚 SurveySum: A Dataset for Summarizing Multiple Scientific Articles into a Survey Section（SurveySum：将多篇科学文章摘要成综述部分的语料库） [06:22] 🩺 Automatic Differential Diagnosis using Transformer-Based Multi-Label Sequence Classification（基于Transformer的多标签序列分类自动鉴别诊断） [07:04] 🔍 GIFT-SW: Gaussian noise Injected Fine-Tuning of Salient Weights for LLMs（GIFT-SW：针对大型语言模型的显著权重注入高斯噪声的微调方法） [07:38] 🧬 Large-Scale Multi-omic Biosequence Transformers for Modeling Peptide-Nucleotide Interactions（大规模多组学生物序列变换器用于模拟肽-核苷酸相互作用） [08:16] 🔍 VLM4Bio: A Benchmark Dataset to Evaluate Pretrained Vision-Language Models for Trait Discovery from Biological Images（VLM4Bio：评估预训练视觉-语言模型在生物图像中特征发现能力的基准数据集） [09:00] 🌍 ClimDetect: A Benchmark Dataset for Climate Change Detection and Attribution（ClimDetect：气候变化检测与归因的基准数据集）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

10分钟

99

7个月前

【月末特辑】8月最火AI论文 | 交互式学习工具普及AI教育，边缘写作提升长上下文检索性能。

大家好，欢迎收听“Hugging Face 每日AI论文速递”月末特辑。每个月的最后一天，我们都会为您带来当月Hugging Face上最热门的AI论文汇总。今天，我们将带您回顾2024年8月的精彩研究成果。本期节目涵盖了从文本生成模型的交互式学习、长上下文检索的新推理模式，到实时游戏引擎中的扩散模型应用，以及图像与视频中的任意分割技术等多个前沿领域。此外，我们还将探讨AI在科学发现自动化、多模态大型语言模型的视觉表示等方面的最新进展。现在，让我们一起深入这些令人兴奋的AI研究，探索科技的未来。节目马上开始，敬请期待！ [00:47] TOP1(🔥148) | 🔍 Transformer Explainer: Interactive Learning of Text-Generative Models（Transformer解释器：交互式学习文本生成模型） [02:54] TOP2(🔥130) | 📚 Writing in the Margins: Better Inference Pattern for Long Context Retrieval（边缘写作：长上下文检索的更好推理模式） [04:59] TOP3(🔥108) | 🎮 Diffusion Models Are Real-Time Game Engines（扩散模型作为实时游戏引擎） [06:58] TOP4(🔥100) | 🎥 SAM 2: Segment Anything in Images and Videos（SAM 2：图像与视频中的任意分割） [08:50] TOP5(🔥100) | 🤖 The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery（AI科学家：迈向完全自动化的开放式科学发现） [10:26] TOP6(🔥99) | 🦙 The Llama 3 Herd of Models（Llama 3 模型群） [12:37] TOP7(🔥97) | 🔍 Building and better understanding vision-language models: insights and future directions（构建和更好地理解视觉-语言模型：见解与未来方向） [15:10] TOP8(🔥95) | 🤖 xGen-MM (BLIP-3): A Family of Open Large Multimodal Models（xGen-MM (BLIP-3): 开放大型多模态模型系列） [17:05] TOP9(🔥84) | 📊 GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI（GMAI-MMBench：面向通用医疗AI的综合多模态评估基准） [19:24] TOP10(🔥81) | 🔍 Law of Vision Representation in MLLMs（多模态大型语言模型中的视觉表示定律）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

21分钟

86

7个月前

【周末特辑】8月第5周最火AI论文 | 边缘写作提升长上下文检索性能，扩散模型实现实时游戏模拟。

大家好，欢迎收听《Hugging Face 每日AI论文速递》周末特辑。每周日，我们都会为您带来一周内Hugging Face上最受欢迎的AI论文摘要。本期节目涵盖的日期是从2024年8月26日至2024年9月01日。在这一期中，我们将深入探讨五篇引人注目的论文，包括长上下文检索的推理模式、扩散模型在实时游戏引擎中的应用、视觉-语言模型的构建与理解、多模态大型语言模型中混合编码器的设计空间探索，以及多模态大型语言模型中的视觉表示定律。现在，让我们立即进入本期节目的精彩内容。 [00:43] TOP1(🔥126) | 📚 Writing in the Margins: Better Inference Pattern for Long Context Retrieval（边缘写作：长上下文检索的更好推理模式） [02:46] TOP2(🔥102) | 🎮 Diffusion Models Are Real-Time Game Engines（扩散模型作为实时游戏引擎） [05:00] TOP3(🔥94) | 🔍 Building and better understanding vision-language models: insights and future directions（构建和更好地理解视觉-语言模型：见解与未来方向） [07:16] TOP4(🔥62) | 🦅 Eagle: Exploring The Design Space for Multimodal LLMs with Mixture of Encoders（Eagle：探索多模态大型语言模型中混合编码器的设计空间） [09:07] TOP5(🔥62) | 🔍 Law of Vision Representation in MLLMs（多模态大型语言模型中的视觉表示定律）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

11分钟

72

7个月前

2024.08.30 每日AI论文 | 视觉表示优化模型性能，CogVLM2提升图像视频理解

大家好，欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年8月30日，我们将带您快速浏览9篇热门AI论文，涵盖多模态大型语言模型、视觉语言模型、视频扩散模型等多个前沿领域。现在，让我们立即进入精彩的论文世界。 [00:24] 🔍 Law of Vision Representation in MLLMs（多模态大型语言模型中的视觉表示定律） [01:03] 🔍 CogVLM2: Visual Language Models for Image and Video Understanding（CogVLM2：用于图像和视频理解的视觉语言模型） [01:40] 🌐 ReconX: Reconstruct Any Scene from Sparse Views with Video Diffusion Model（ReconX：利用视频扩散模型从稀疏视角重建任意场景） [02:18] 🎵 WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling（WavTokenizer：一种高效的音频语言建模声学离散编解码器标记器） [02:54] 🎥 SAM2Point: Segment Any 3D as Videos in Zero-shot and Promptable Manners（SAM2Point：零样本和可提示方式下的3D视频分割） [03:28] 🎨 CSGO: Content-Style Composition in Text-to-Image Generation（CSGO：文本到图像生成中的内容-风格组合） [04:18] 🌐 3D Reconstruction with Spatial Memory（基于空间记忆的三维重建） [04:54] 📈 Scaling Up Diffusion and Flow-based XGBoost Models（扩展扩散和基于流的XGBoost模型） [05:29] 🎭 StyleRemix: Interpretable Authorship Obfuscation via Distillation and Perturbation of Style Elements（StyleRemix：通过蒸馏和扰动风格元素进行可解释的作者身份混淆）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

6分钟

60

7个月前

2024.08.29 每日AI论文 | 数据处理提升模型性能，多模态混合编码器优化视觉任务

大家好，欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年8月29日，我们将带您快速浏览13篇热门AI论文，涵盖大型语言模型、多模态设计、能效模式等多个前沿领域。现在，让我们立即进入今天的论文速递。 [00:23] 📚 BaichuanSEED: Sharing the Potential of ExtensivE Data Collection and Deduplication by Introducing a Competitive Large Language Model Baseline（BaichuanSEED：通过引入竞争性大型语言模型基线来分享广泛数据收集和去重化的潜力） [01:03] 🦅 Eagle: Exploring The Design Space for Multimodal LLMs with Mixture of Encoders（Eagle：探索多模态大型语言模型中混合编码器的设计空间） [01:45] 🐬 Dolphin: Long Context as a New Modality for Energy-Efficient On-Device Language Models（海豚：将长上下文作为新的能效模式用于设备上的语言模型） [02:26] 🚀 Distribution Backtracking Builds A Faster Convergence Trajectory for One-step Diffusion Distillation（分布回溯构建一步扩散蒸馏的更快收敛轨迹） [03:07] 📚 Leveraging Open Knowledge for Advancing Task Expertise in Large Language Models（利用开放知识提升大型语言模型任务专长） [03:49] 🔍 LLaVA-MoD: Making LLaVA Tiny via MoE Knowledge Distillation（LLaVA-MoD：通过MoE知识蒸馏使LLaVA小型化） [04:30] 🔍 Knowledge Navigator: LLM-guided Browsing Framework for Exploratory Search in Scientific Literature（知识导航器：基于大型语言模型的科学文献探索搜索框架） [05:07] 🤖 In-Context Imitation Learning via Next-Token Prediction（通过下一标记预测进行情境模仿学习） [05:58] 📊 Efficient LLM Scheduling by Learning to Rank（通过学习排序实现高效的大型语言模型调度） [06:36] 🔍 Towards Realistic Example-based Modeling via 3D Gaussian Stitching（基于3D高斯拼接的现实示例建模方法研究） [07:16] 📚 ReMamba: Equip Mamba with Effective Long-Sequence Modeling（ReMamba：为Mamba模型配备有效的长序列建模能力） [07:51] 🔄 Auxiliary-Loss-Free Load Balancing Strategy for Mixture-of-Experts（无辅助损失的混合专家模型负载均衡策略） [08:26] 🎭 TEDRA: Text-based Editing of Dynamic and Photoreal Actors（TEDRA：基于文本的动态和逼真演员编辑）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

9分钟

46

7个月前

2024.08.28 每日AI论文 | 扩散模型提升游戏模拟质量，边缘写作优化长序列处理。

大家好，欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年8月28日，我们将带您快速浏览11篇热门AI论文，涵盖实时游戏引擎、长上下文检索、混合模型加速等多个前沿领域。现在，让我们立即进入今天的论文速递。 [00:24] 🎮 Diffusion Models Are Real-Time Game Engines（扩散模型作为实时游戏引擎） [01:08] 📚 Writing in the Margins: Better Inference Pattern for Long Context Retrieval（边缘写作：长上下文检索的更好推理模式） [01:52] 🐍 The Mamba in the Llama: Distilling and Accelerating Hybrid Models（The Mamba in the Llama: 蒸馏和加速混合模型） [02:25] 👾 GenCA: A Text-conditioned Generative Model for Realistic and Drivable Codec Avatars（GenCA：一种基于文本条件的生成模型，用于真实可驱动的编解码器虚拟形象） [03:10] 🎥 Generative Inbetweening: Adapting Image-to-Video Models for Keyframe Interpolation（生成中间帧：将图像到视频模型适应于关键帧插值） [03:50] 🎨 Build-A-Scene: Interactive 3D Layout Control for Diffusion-Based Image Generation（构建场景：基于扩散的图像生成的交互式3D布局控制） [04:25] 📖 Platypus: A Generalized Specialist Model for Reading Text in Various Forms（鸭嘴兽：一种用于阅读各种形式文本的广义专家模型） [05:07] 📊 Text2SQL is Not Enough: Unifying AI and Databases with TAG（Text2SQL还不够：通过TAG统一AI与数据库） [05:48] 🧠 Project SHADOW: Symbolic Higher-order Associative Deductive reasoning On Wikidata using LM probing（Project SHADOW：使用语言模型探针对Wikidata进行符号高阶关联演绎推理） [06:26] 🐦 Temporally-consistent 3D Reconstruction of Birds（海鸟的时间一致性三维重建） [07:00] 📊 DSTI at LLMs4OL 2024 Task A: Intrinsic versus extrinsic knowledge for type classification（DSTI在LLMs4OL 2024任务A中：内在知识与外在知识在类型分类中的比较）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

7分钟

37

7个月前

2024.08.27 每日AI论文 | SwiftBrush v2提升图像模型性能，音乐基础模型综述

大家好，欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年8月27日，我们将带您快速浏览13篇热门AI论文，内容涵盖模型优化、基准测试、视频生成技术等多个前沿领域。现在，让我们立即进入今天的论文速递。 [00:23] 🚀 SwiftBrush v2: Make Your One-step Diffusion Model Better Than Its Teacher（SwiftBrush v2：使您的一步扩散模型优于其教师模型） [00:58] 🔧 SWE-bench-java: A GitHub Issue Resolving Benchmark for Java（SWE-bench-java：一个针对Java的GitHub问题解决基准） [01:43] 🏆 K-Sort Arena: Efficient and Reliable Benchmarking for Generative Models via K-wise Human Preferences（K-Sort Arena：基于K-wise人类偏好的生成模型高效可靠基准测试） [02:17] 🎵 Foundation Models for Music: A Survey（音乐基础模型综述） [02:56] 🔄 LlamaDuo: LLMOps Pipeline for Seamless Migration from Service LLMs to Small-Scale Local LLMs（LlamaDuo：从服务大型语言模型到小型本地模型的无缝迁移LLMOps管道） [03:39] 🎥 Training-free Long Video Generation with Chain of Diffusion Model Experts（无需训练的长视频生成与链式扩散模型专家） [04:11] 🎮 Learning to Move Like Professional Counter-Strike Players（学习专业反恐精英玩家的移动行为） [04:46] 🌐 LLaVaOLMoBitnet1B: Ternary LLM goes Multimodal!（LLaVaOLMoBitnet1B：三元大型语言模型走向多模态！） [05:18] 📱 MobileQuant: Mobile-friendly Quantization for On-device Language Models（MobileQuant：适用于移动设备的语言模型量化方法） [05:53] 📈 Power Scheduler: A Batch Size and Token Number Agnostic Learning Rate Scheduler（Power Scheduler：一种与批量大小和令牌数量无关的学习率调度器） [06:25] 🎥 TVG: A Training-free Transition Video Generation Method with Diffusion Models（TVG：一种无需训练的过渡视频生成方法与扩散模型） [07:03] 🔍 Efficient Detection of Toxic Prompts in Large Language Models（大型语言模型中有毒提示的高效检测） [07:34] 👤 MagicMan: Generative Novel View Synthesis of Humans with 3D-Aware Diffusion and Iterative Refinement（MagicMan：利用3D感知扩散模型和迭代细化技术生成人类高质量多视角图像）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

8分钟

76

7个月前