节目列表: HuggingFace 每日AI论文速递 - EarsOnMe | 发现和收听来自小宇宙的热门播客

2024.09.11 每日AI论文 | GroUSE提升RAG评估，INTRA优化功能定位。

大家好，欢迎收听今天的'Hugging Face 每日AI论文速递'。今天是2024年9月11日，我们将带您快速浏览7篇热门AI论文，内容涵盖检索增强生成系统评估、弱监督功能定位、大型语言模型的语音交互、歌曲生成系统、视频到音频合成、扩散模型微调以及3D关节的潜在视图不变嵌入。现在，让我们立即进入今天的论文速递。 [00:31] 📊 GroUSE: A Benchmark to Evaluate Evaluators in Grounded Question Answering（GroUSE: 评估基于检索增强生成系统中评估器的基准） [01:16] 🔍 INTRA: Interaction Relationship-aware Weakly Supervised Affordance Grounding（INTRA：交互关系感知的弱监督功能定位） [01:49] 🗣 LLaMA-Omni: Seamless Speech Interaction with Large Language Models（LLaMA-Omni：与大型语言模型的无缝语音交互） [02:27] 🎵 SongCreator: Lyrics-based Universal Song Generation（基于歌词的通用歌曲生成系统：SongCreator） [03:03] 🎥 Draw an Audio: Leveraging Multi-Instruction for Video-to-Audio Synthesis（绘制音频：利用多指令进行视频到音频合成） [03:45] 🔄 SaRA: High-Efficient Diffusion Model Fine-tuning with Progressive Sparse Low-Rank Adaptation（SaRA：高效扩散模型微调的渐进稀疏低秩适应） [04:20] 🔄 LEIA: Latent View-invariant Embeddings for Implicit 3D Articulation（LEIA：隐式3D关节的潜在视图不变嵌入）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

5分钟

62

8个月前

2024.09.10 每日AI论文 | 偏好学习综述，多模态模型进化提升

大家好，欢迎来到'Hugging Face 每日AI论文速递'。今天是2024年9月10日，我们将带您快速浏览12篇热门AI论文，涵盖大语言模型、多模态学习、知识发现、机器翻译等多个前沿领域。现在，让我们立即进入今天的论文速递。 [00:24] 📚 Towards a Unified View of Preference Learning for Large Language Models: A Survey（面向大语言模型偏好学习的统一视角：综述） [01:04] 📊 MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct（MMEvol：通过Evol-Instruct增强多模态大语言模型） [01:45] 🔄 OneGen: Efficient One-Pass Unified Generation and Retrieval for LLMs（OneGen：为大型语言模型提供高效的一遍统一生成与检索） [02:22] 🧠 MemoRAG: Moving towards Next-Gen RAG Via Memory-Inspired Knowledge Discovery（MemoRAG：通过记忆启发的知识发现迈向下一代RAG） [02:58] 📚 Benchmarking Chinese Knowledge Rectification in Large Language Models（大语言模型中的中文知识修正基准） [03:30] 📚 Paper Copilot: A Self-Evolving and Efficient LLM System for Personalized Academic Assistance（Paper Copilot：一个用于个性化学术辅助的自进化和高效LLM系统） [04:11] 🔍 POINTS: Improving Your Vision-language Model with Affordable Strategies（POINTS：通过经济实惠的策略提升您的视觉语言模型） [04:51] 🏠 UniDet3D: Multi-dataset Indoor 3D Object Detection（UniDet3D：多数据集室内3D物体检测） [05:31] 🌍 Open Language Data Initiative: Advancing Low-Resource Machine Translation for Karakalpak（开放语言数据倡议：推进卡拉卡尔帕克语的低资源机器翻译） [06:10] 🤖 Robot Utility Models: General Policies for Zero-Shot Deployment in New Environments（机器人效用模型：新环境中零样本部署的通用策略） [06:51] 🔍 Insights from Benchmarking Frontier Language Models on Web App Code Generation（前沿语言模型在Web应用代码生成中的基准测试洞察） [07:41] 📊 Evaluating Multiview Object Consistency in Humans and Image Models（评估人类与图像模型在多视角物体一致性上的表现）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

8分钟

99+

8个月前

2024.09.09 每日AI论文 | 数据优化提升模型性能，模块化构建增强模型适应性。

各位听众朋友，大家好！今天是2024年9月09日。今天我们将带您快速浏览Hugging Face上的5篇热门AI论文，内容涵盖代码大语言模型的指令调优、可配置基础模型的模块化构建、开放式MAGVIT2的自回归视觉生成、奇虎-T2X的文本到任务扩散变换器，以及GST的高斯喷射变换器在3D人体重建中的应用。现在，让我们立即进入今天的论文速递！ [00:34] 🔍 How Do Your Code LLMs Perform? Empowering Code Instruction Tuning with High-Quality Data（代码大语言模型表现如何？通过高质量数据增强代码指令调优） [01:09] 🧩 Configurable Foundation Models: Building LLMs from a Modular Perspective（可配置基础模型：从模块化角度构建大型语言模型） [01:48] 🌐 Open-MAGVIT2: An Open-Source Project Toward Democratizing Auto-regressive Visual Generation（开放式MAGVIT2：一个面向民主化自回归视觉生成的开源项目） [02:40] 🚀 Qihoo-T2X: An Efficiency-Focused Diffusion Transformer via Proxy Tokens for Text-to-Any-Task（奇虎-T2X：通过代理令牌实现文本到任意任务的高效扩散变换器） [03:20] 👤 GST: Precise 3D Human Body from a Single Image with Gaussian Splatting Transformers（GST：基于高斯喷射变换器的单张图像精确3D人体重建）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

4分钟

62

8个月前

【周末特辑】9月第2周最火AI论文 | 高效图像编辑新方法，音频驱动头像创新技术

各位听众朋友，大家好！欢迎收听本周的“Hugging Face 每日AI论文速递”周末特辑。每周日，我们都会为您带来一周内Hugging Face上最热门的AI论文汇总。本期节目涵盖了2024年9月2日至2024年9月8日期间的热门论文。本期我们将为您介绍5篇精彩论文，内容涉及图像编辑的自引导机制、音频驱动的人物头像技术、胃肠道数据集的文本图像对、开放式混合专家语言模型，以及大语言模型中的注意力头调查。现在，让我们立即进入本期论文的精彩内容。 [00:40] TOP1(🔥80) | 🖼 Guide-and-Rescale: Self-Guidance Mechanism for Effective Tuning-Free Real Image Editing（引导与重缩放：一种无需调优的自引导机制实现高效真实图像编辑） [02:12] TOP2(🔥70) | 🎭 Loopy: Taming Audio-Driven Portrait Avatar with Long-Term Motion Dependency（Loopy：驯服音频驱动的人物头像与长期运动依赖） [04:11] TOP3(🔥64) | 📊 Kvasir-VQA: A Text-Image Pair GI Tract Dataset（Kvasir-VQA：一个带有文本图像对的胃肠道数据集） [06:17] TOP4(🔥60) | 🧠 OLMoE: Open Mixture-of-Experts Language Models（OLMoE：开放式混合专家语言模型） [08:43] TOP5(🔥60) | 🔍 Attention Heads of Large Language Models: A Survey（大语言模型中的注意力头：一项调查）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

10分钟

92

8个月前

2024.09.06 每日AI论文 | 注意力头机制解析，模糊测试效率提升

大家好，欢迎收听今天的'Hugging Face 每日AI论文速递'。今天是2024年9月06日，我们将带您快速浏览10篇热门AI论文，涵盖大语言模型、模糊测试、图像编辑、文档理解等多个前沿领域。现在，让我们立即进入今天的论文速递。 [00:23] 🔍 Attention Heads of Large Language Models: A Survey（大语言模型中的注意力头：一项调查） [01:10] 🧠 FuzzCoder: Byte-level Fuzzing Test via Large Language Model（FuzzCoder：基于大语言模型的字节级模糊测试） [01:49] 🖼 Guide-and-Rescale: Self-Guidance Mechanism for Effective Tuning-Free Real Image Editing（引导与重缩放：一种无需调优的自引导机制实现高效真实图像编辑） [02:20] 📊 CDM: A Reliable Metric for Fair and Accurate Formula Recognition Evaluation（CDM：一种公平且准确的公式识别评估指标） [02:54] 📄 mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding（mPLUG-DocOwl2：无OCR多页文档理解的高分辨率压缩） [03:32] 🤖 From MOOC to MAIC: Reshaping Online Teaching and Learning through LLM-driven Agents（从MOOC到MAIC：通过LLM驱动的代理重塑在线教学与学习） [04:10] 🌐 Geometry Image Diffusion: Fast and Data-Efficient Text-to-3D with Image-Based Surface Representation（几何图像扩散：基于图像表面表示的高效数据驱动文本到3D生成） [04:48] 🔍 WildVis: Open Source Visualizer for Million-Scale Chat Logs in the Wild（WildVis：百万级聊天日志的开源可视化工具） [05:25] 🧊 FrozenSeg: Harmonizing Frozen Foundation Models for Open-Vocabulary Segmentation（FrozenSeg: 协调冻结基础模型用于开放词汇分割） [05:59] 📄 Report Cards: Qualitative Evaluation of Language Models Using Natural Language Summaries（报告卡：使用自然语言摘要对语言模型进行定性评估）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

6分钟

55

8个月前

2024.09.05 每日AI论文 | 高效扩展多模态模型，音频驱动视频生成优化

大家好，欢迎收听今天的'Hugging Face 每日AI论文速递'。今天是2024年9月5日，我们将带您快速浏览8篇热门AI论文。本期内容涵盖了多模态大语言模型的扩展、音频驱动的人像化身、长上下文问答中的引用生成、多学科多模态理解基准的提升，以及代码预训练中的数据解密等多个前沿领域。现在，让我们立即进入今天的论文速递。 [00:31] 📊 LongLLaVA: Scaling Multi-modal LLMs to 1000 Images Efficiently via Hybrid Architecture（LongLLaVA：通过混合架构高效扩展多模态大语言模型至1000张图像） [01:13] 🎙 Loopy: Taming Audio-Driven Portrait Avatar with Long-Term Motion Dependency（Loopy: 驯服音频驱动的人像化身与长期运动依赖） [01:48] 📚 LongCite: Enabling LLMs to Generate Fine-grained Citations in Long-context QA（LongCite: 在长上下文问答中使LLMs生成细粒度引用的方法） [02:29] 📊 MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark（MMMU-Pro：一个更强大的多学科多模态理解基准） [03:02] 🧩 Arctic-SnowCoder: Demystifying High-Quality Data in Code Pretraining（北极雪编码器：解密代码预训练中的高质量数据） [03:39] 🗳 Political DEBATE: Efficient Zero-shot and Few-shot Classifiers for Political Text（政治辩论：高效的零样本和少样本政治文本分类器） [04:15] ⚡ FastVoiceGrad: One-step Diffusion-Based Voice Conversion with Adversarial Conditional Diffusion Distillation（FastVoiceGrad：一步扩散基于对抗条件扩散蒸馏的语音转换） [04:48] 🤖 Affordance-based Robot Manipulation with Flow Matching（基于流匹配的机器人操作框架）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

5分钟

39

8个月前

2024.09.04 每日AI论文 | Kvasir-VQA提升医疗诊断，LongRecipe扩展语言模型上下文

大家好，欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年9月04日，我们将带您快速浏览16篇热门AI论文，涵盖数据集、语言模型、视频生成等多个领域。现在，让我们立即进入今天的论文速递。 [00:22] 📊 Kvasir-VQA: A Text-Image Pair GI Tract Dataset（Kvasir-VQA：一个带有文本图像对的胃肠道数据集） [00:58] 📚 LongRecipe: Recipe for Efficient Long Context Generalization in Large Languge Models（LongRecipe：大型语言模型中高效长上下文泛化的训练策略） [01:43] 🧠 OLMoE: Open Mixture-of-Experts Language Models（OLMoE：开放式混合专家语言模型） [02:23] 🎶 FLUX that Plays Music（能播放音乐的FLUX） [03:00] 📹 DepthCrafter: Generating Consistent Long Depth Sequences for Open-world Videos（DepthCrafter：为开放世界视频生成一致的长深度序列） [03:41] 🎥 VideoLLaMB: Long-context Video Understanding with Recurrent Memory Bridges（VideoLLaMB：利用循环记忆桥进行长上下文视频理解） [04:24] 🎥 Compositional 3D-aware Video Generation with LLM Director（基于LLM导演的组合式3D感知视频生成） [05:02] 🤖 Diffusion Policy Policy Optimization（扩散策略优化） [05:37] 🚀 LinFusion: 1 GPU, 1 Minute, 16K Image（LinFusion：1 GPU，1分钟，16K图像） [06:28] 🔍 ContextCite: Attributing Model Generation to Context（ContextCite：将模型生成归因于上下文） [07:05] 📺 OD-VAE: An Omni-dimensional Video Compressor for Improving Latent Video Diffusion Model（OD-VAE：一种用于改进潜在视频扩散模型的全方位视频压缩器） [07:44] 📉 Accurate Compression of Text-to-Image Diffusion Models via Vector Quantization（通过向量量化实现文本到图像扩散模型的精确压缩） [08:21] 🎥 Follow-Your-Canvas: Higher-Resolution Video Outpainting with Extensive Content Generation（Follow-Your-Canvas：高分辨率视频外绘与广泛内容生成） [08:58] 🧠 Density Adaptive Attention-based Speech Network: Enhancing Feature Understanding for Mental Health Disorders（密度自适应注意力语音网络：增强心理健康障碍的特征理解） [09:35] 📚 Know When to Fuse: Investigating Non-English Hybrid Retrieval in the Legal Domain（了解何时融合：研究法律领域中的非英语混合检索） [10:10] 📚 The MERIT Dataset: Modelling and Efficiently Rendering Interpretable Transcripts（MERIT数据集：建模和高效渲染可解释的转录文本）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

11分钟

73

8个月前

2024.09.03 每日AI论文 | 视觉模型用于零样本时间序列预测，音频对话模型实时推理。

大家好，欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年9月03日，我们将带您快速了解两篇热门AI论文。首先是关于零样本时间序列预测的视觉掩码自编码器，其次是语言模型在流式传输中的多模态能力。精彩内容，马上开始！ [00:24] 🔍 VisionTS: Visual Masked Autoencoders Are Free-Lunch Zero-Shot Time Series Forecasters（VisionTS：视觉掩码自编码器是零样本时间序列预测的免费午餐） [01:10] 🗣 Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming（Mini-Omni：语言模型在流式传输中能听、能说、能思考）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

2分钟

63

8个月前

2024.09.02 每日AI论文 | 科学文献理解模型显著提升,文本到图像个性化方法优化。

大家好，欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年9月02日，我们将带您快速浏览14篇热门AI论文，涵盖科学文献理解、文本到图像个性化、多模态模型评估等多个前沿领域。现在，让我们立即进入精彩的论文世界。 [00:24] 📚 SciLitLLM: How to Adapt LLMs for Scientific Literature Understanding（SciLitLLM：如何适应大型语言模型以理解科学文献） [01:02] 🖼 CoRe: Context-Regularized Text Embedding Learning for Text-to-Image Personalization（CoRe：基于上下文正则化的文本嵌入学习在文本到图像个性化中的应用） [01:41] 🏙 UrBench: A Comprehensive Benchmark for Evaluating Large Multimodal Models in Multi-View Urban Scenarios（UrBench：在多视角城市场景中评估大型多模态模型的综合基准） [02:24] 📚 The VoxCeleb Speaker Recognition Challenge: A Retrospective（VoxCeleb说话人识别挑战回顾） [02:59] 🌍 InkubaLM: A small language model for low-resource African languages（InkubaLM：一种针对低资源非洲语言的小型语言模型） [03:46] 📚 CURLoRA: Stable LLM Continual Fine-Tuning and Catastrophic Forgetting Mitigation（CURLoRA：稳定的大型语言模型持续微调与灾难性遗忘缓解） [04:24] 🌐 CrossViewDiff: A Cross-View Diffusion Model for Satellite-to-Street View Synthesis（跨视图扩散模型：卫星视图到街景视图合成） [05:07] 📚 Jina-ColBERT-v2: A General-Purpose Multilingual Late Interaction Retriever（Jina-ColBERT-v2：一种通用多语言后期交互检索器） [05:38] 📚 SurveySum: A Dataset for Summarizing Multiple Scientific Articles into a Survey Section（SurveySum：将多篇科学文章摘要成综述部分的语料库） [06:22] 🩺 Automatic Differential Diagnosis using Transformer-Based Multi-Label Sequence Classification（基于Transformer的多标签序列分类自动鉴别诊断） [07:04] 🔍 GIFT-SW: Gaussian noise Injected Fine-Tuning of Salient Weights for LLMs（GIFT-SW：针对大型语言模型的显著权重注入高斯噪声的微调方法） [07:38] 🧬 Large-Scale Multi-omic Biosequence Transformers for Modeling Peptide-Nucleotide Interactions（大规模多组学生物序列变换器用于模拟肽-核苷酸相互作用） [08:16] 🔍 VLM4Bio: A Benchmark Dataset to Evaluate Pretrained Vision-Language Models for Trait Discovery from Biological Images（VLM4Bio：评估预训练视觉-语言模型在生物图像中特征发现能力的基准数据集） [09:00] 🌍 ClimDetect: A Benchmark Dataset for Climate Change Detection and Attribution（ClimDetect：气候变化检测与归因的基准数据集）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

10分钟

99

8个月前

【月末特辑】8月最火AI论文 | 交互式学习工具普及AI教育，边缘写作提升长上下文检索性能。

大家好，欢迎收听“Hugging Face 每日AI论文速递”月末特辑。每个月的最后一天，我们都会为您带来当月Hugging Face上最热门的AI论文汇总。今天，我们将带您回顾2024年8月的精彩研究成果。本期节目涵盖了从文本生成模型的交互式学习、长上下文检索的新推理模式，到实时游戏引擎中的扩散模型应用，以及图像与视频中的任意分割技术等多个前沿领域。此外，我们还将探讨AI在科学发现自动化、多模态大型语言模型的视觉表示等方面的最新进展。现在，让我们一起深入这些令人兴奋的AI研究，探索科技的未来。节目马上开始，敬请期待！ [00:47] TOP1(🔥148) | 🔍 Transformer Explainer: Interactive Learning of Text-Generative Models（Transformer解释器：交互式学习文本生成模型） [02:54] TOP2(🔥130) | 📚 Writing in the Margins: Better Inference Pattern for Long Context Retrieval（边缘写作：长上下文检索的更好推理模式） [04:59] TOP3(🔥108) | 🎮 Diffusion Models Are Real-Time Game Engines（扩散模型作为实时游戏引擎） [06:58] TOP4(🔥100) | 🎥 SAM 2: Segment Anything in Images and Videos（SAM 2：图像与视频中的任意分割） [08:50] TOP5(🔥100) | 🤖 The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery（AI科学家：迈向完全自动化的开放式科学发现） [10:26] TOP6(🔥99) | 🦙 The Llama 3 Herd of Models（Llama 3 模型群） [12:37] TOP7(🔥97) | 🔍 Building and better understanding vision-language models: insights and future directions（构建和更好地理解视觉-语言模型：见解与未来方向） [15:10] TOP8(🔥95) | 🤖 xGen-MM (BLIP-3): A Family of Open Large Multimodal Models（xGen-MM (BLIP-3): 开放大型多模态模型系列） [17:05] TOP9(🔥84) | 📊 GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI（GMAI-MMBench：面向通用医疗AI的综合多模态评估基准） [19:24] TOP10(🔥81) | 🔍 Law of Vision Representation in MLLMs（多模态大型语言模型中的视觉表示定律）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

21分钟

86

8个月前

【周末特辑】8月第5周最火AI论文 | 边缘写作提升长上下文检索性能，扩散模型实现实时游戏模拟。

大家好，欢迎收听《Hugging Face 每日AI论文速递》周末特辑。每周日，我们都会为您带来一周内Hugging Face上最受欢迎的AI论文摘要。本期节目涵盖的日期是从2024年8月26日至2024年9月01日。在这一期中，我们将深入探讨五篇引人注目的论文，包括长上下文检索的推理模式、扩散模型在实时游戏引擎中的应用、视觉-语言模型的构建与理解、多模态大型语言模型中混合编码器的设计空间探索，以及多模态大型语言模型中的视觉表示定律。现在，让我们立即进入本期节目的精彩内容。 [00:43] TOP1(🔥126) | 📚 Writing in the Margins: Better Inference Pattern for Long Context Retrieval（边缘写作：长上下文检索的更好推理模式） [02:46] TOP2(🔥102) | 🎮 Diffusion Models Are Real-Time Game Engines（扩散模型作为实时游戏引擎） [05:00] TOP3(🔥94) | 🔍 Building and better understanding vision-language models: insights and future directions（构建和更好地理解视觉-语言模型：见解与未来方向） [07:16] TOP4(🔥62) | 🦅 Eagle: Exploring The Design Space for Multimodal LLMs with Mixture of Encoders（Eagle：探索多模态大型语言模型中混合编码器的设计空间） [09:07] TOP5(🔥62) | 🔍 Law of Vision Representation in MLLMs（多模态大型语言模型中的视觉表示定律）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

11分钟

72

8个月前

2024.08.30 每日AI论文 | 视觉表示优化模型性能，CogVLM2提升图像视频理解

大家好，欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年8月30日，我们将带您快速浏览9篇热门AI论文，涵盖多模态大型语言模型、视觉语言模型、视频扩散模型等多个前沿领域。现在，让我们立即进入精彩的论文世界。 [00:24] 🔍 Law of Vision Representation in MLLMs（多模态大型语言模型中的视觉表示定律） [01:03] 🔍 CogVLM2: Visual Language Models for Image and Video Understanding（CogVLM2：用于图像和视频理解的视觉语言模型） [01:40] 🌐 ReconX: Reconstruct Any Scene from Sparse Views with Video Diffusion Model（ReconX：利用视频扩散模型从稀疏视角重建任意场景） [02:18] 🎵 WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling（WavTokenizer：一种高效的音频语言建模声学离散编解码器标记器） [02:54] 🎥 SAM2Point: Segment Any 3D as Videos in Zero-shot and Promptable Manners（SAM2Point：零样本和可提示方式下的3D视频分割） [03:28] 🎨 CSGO: Content-Style Composition in Text-to-Image Generation（CSGO：文本到图像生成中的内容-风格组合） [04:18] 🌐 3D Reconstruction with Spatial Memory（基于空间记忆的三维重建） [04:54] 📈 Scaling Up Diffusion and Flow-based XGBoost Models（扩展扩散和基于流的XGBoost模型） [05:29] 🎭 StyleRemix: Interpretable Authorship Obfuscation via Distillation and Perturbation of Style Elements（StyleRemix：通过蒸馏和扰动风格元素进行可解释的作者身份混淆）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

6分钟

60

8个月前