HuggingFace 每日AI论文速递 - 节目列表

2024.09.18 每日AI论文 | OmniGen统一图像生成，NVLM多模态推理领先。

本期的 15 篇论文如下：[00:26] 🌐 OmniGen: Unified Image Generation（OmniGen：统一图像生成）[01:02] 🌐 NVLM: Open Frontier-Class Multimodal LLMs（NVLM：开放前沿类多模态大语言模型）[01:41] 🔍 Fine-Tuning Image-Conditional Diffusion Models is Easier than You Think（微调图像条件扩散模型比你想象的更容易）[02:15] 🌐 Phidias: A Generative Model for Creating 3D Content from Text, Image, and 3D Conditions with Reference-Augmented Diffusion（Phidias：一种利用参考增强扩散从文本、图像和3D条件生成3D内容的生成模型）[02:59] 🎥 OSV: One Step is Enough for High-Quality Image to Video Generation（OSV：一步生成高质量图像到视频）[03:38] 🤖 On the limits of agency in agent-based models（基于代理模型的代理限制研究）[04:17] 🔍 Promptriever: Instruction-Trained Retrievers Can Be Prompted Like Language Models（提示检索器：指令训练的检索器可以像语言模型一样被提示）[04:52] 📊 A Comprehensive Evaluation of Quantized Instruction-Tuned Large Language Models: An Experimental Analysis up to 405B（量化指令调优大型语言模型的综合评估：一项高达405B参数的实验分析）[05:38] 🎵 EzAudio: Enhancing Text-to-Audio Generation with Efficient Diffusion Transformer（EzAudio：利用高效扩散Transformer增强文本到音频生成）[06:21] 🤖 Agile Continuous Jumping in Discontinuous Terrains（不连续地形中的敏捷连续跳跃）[07:01] 🌐 SplatFields: Neural Gaussian Splats for Sparse 3D and 4D Reconstruction（SplatFields: 用于稀疏3D和4D重建的神经高斯Splats）[07:34] 📈 Single-Layer Learnable Activation for Implicit Neural Representation (SL$^{2}$A-INR)（单层可学习激活函数用于隐式神经表示）[08:11] 📈 Implicit Neural Representations with Fourier Kolmogorov-Arnold Networks（基于傅里叶科尔莫戈罗夫-阿诺德网络的隐式神经表示）[08:53] 🎵 PDMX: A Large-Scale Public Domain MusicXML Dataset for Symbolic Music Processing（PDMX：用于符号音乐处理的大规模公共领域MusicXML数据集）[09:38] 🔍 Measuring and Enhancing Trustworthiness of LLMs in RAG through Grounded Attributions and Learning to Refuse（通过基于属性的归因和学习拒绝来衡量和增强RAG中LLM的可信度）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递在小宇宙查看该单集文稿

10分钟

2024.09.17 每日AI论文 | 音乐生成系统创新，大语言模型推理加速

本期的 13 篇论文如下：[00:26] 🎵 Seed-Music: A Unified Framework for High Quality and Controlled Music Generation（Seed-Music：高质量和可控音乐生成的统一框架）[01:03] ⚡ RetrievalAttention: Accelerating Long-Context LLM Inference via Vector Retrieval（通过向量检索加速长上下文大语言模型推理）[01:46] 🌐 Ferret: Federated Full-Parameter Tuning at Scale for Large Language Models（Ferret：大规模联邦学习中大型语言模型的全参数微调）[02:35] 🔍 Guiding Vision-Language Model Selection for Visual Question-Answering Across Tasks, Domains, and Knowledge Types（指导视觉语言模型选择用于跨任务、领域和知识类型的视觉问答）[03:20] 🔊 ReCLAP: Improving Zero Shot Audio Classification by Describing Sounds（ReCLAP：通过描述声音改进零样本音频分类）[04:04] 📚 One missing piece in Vision and Language: A Survey on Comics Understanding（视觉与语言中的缺失一环：漫画理解综述）[04:42] 🌐 jina-embeddings-v3: Multilingual Embeddings With Task LoRA（Jina-embeddings-v3：多语言嵌入与任务LoRA）[05:28] 🧠 On the Diagram of Thought（关于思维图的探讨）[06:10] 🔊 AudioBERT: Audio Knowledge Augmented Language Model（音频BERT：增强语言模型的音频知识）[06:40] 🔍 Policy Filtration in RLHF to Fine-Tune LLM for Code Generation（在RLHF中进行策略过滤以微调LLM进行代码生成）[07:20] 📊 Towards Predicting Temporal Changes in a Patient's Chest X-ray Images based on Electronic Health Records（基于电子健康记录预测患者胸部X光图像的时间变化）[07:57] 🤖 Breaking reCAPTCHAv2（破解 reCAPTCHAv2）[08:27] 🐝 beeFormer: Bridging the Gap Between Semantic and Interaction Similarity in Recommender Systems（beeFormer：在推荐系统中弥合语义和交互相似性之间的差距）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递在小宇宙查看该单集文稿

9分钟

2024.09.16 每日AI论文 | 多光照合成提升重光照效果，即时拖拽优化图像编辑交互性。

本期的 7 篇论文如下：[00:23] 💡 A Diffusion Approach to Radiance Field Relighting using Multi-Illumination Synthesis（使用多光照合成的辐射场重光照的扩散方法）[00:56] 🖱 InstantDrag: Improving Interactivity in Drag-based Image Editing（即时拖拽：提升基于拖拽的图像编辑交互性）[01:31] 🎥 Robust Dual Gaussian Splatting for Immersive Human-centric Volumetric Videos（鲁棒双高斯散射用于沉浸式以人为中心的体积视频）[02:10] 🎨 DrawingSpinUp: 3D Animation from Single Character Drawings（从单个角色绘图生成3D动画）[02:41] 🎧 Apollo: Band-sequence Modeling for High-Quality Audio Restoration（阿波罗：用于高质量音频恢复的频带序列建模）[03:21] 🖱 Click2Mask: Local Editing with Dynamic Mask Generation（Click2Mask：动态掩码生成的局部编辑）[03:58] 🔍 Mamba-YOLO-World: Marrying YOLO-World with Mamba for Open-Vocabulary Detection（Mamba-YOLO-World：将YOLO-World与Mamba结合用于开放词汇检测）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递在小宇宙查看该单集文稿

5分钟

60

【周末特辑】9月第3周最火AI论文 | 偏好学习提升LLMs，PingPong评估角色扮演

本期的 5 篇论文如下：[00:41] TOP1(🔥65) | 📚 Towards a Unified View of Preference Learning for Large Language Models: A Survey（面向大型语言模型的偏好学习统一视图：综述）[02:48] TOP2(🔥50) | 🎭 PingPong: A Benchmark for Role-Playing Language Models with User Emulation and Multi-Model Evaluation（PingPong：用于用户模拟和多模型评估的角色扮演语言模型基准）[05:15] TOP3(🔥44) | 🩺 MEDIC: Towards a Comprehensive Framework for Evaluating LLMs in Clinical Applications（MEDIC：面向临床应用中大型语言模型评估的综合框架）[07:19] TOP4(🔥43) | 🗣 LLaMA-Omni: Seamless Speech Interaction with Large Language Models（LLaMA-Omni：与大型语言模型的无缝语音交互）[09:02] TOP5(🔥42) | 🌐 MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct（MMEvol：通过Evol-Instruct增强多模态大语言模型）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递在小宇宙查看该单集文稿

11分钟

99

2024.09.13 每日AI论文 | 多模态代理评估，大语言模型创新研究

本期的 9 篇论文如下：[00:27] 💻 Windows Agent Arena: Evaluating Multi-Modal OS Agents at Scale（Windows Agent Arena: 大规模评估多模态操作系统代理）[01:03] 🤖 Can LLMs Generate Novel Research Ideas? A Large-Scale Human Study with 100+ NLP Researchers（大语言模型能否生成新颖的研究想法？一项与100多名NLP研究人员合作的大规模人类研究）[01:37] 🖼 IFAdapter: Instance Feature Control for Grounded Text-to-Image Generation（基于实例特征控制的接地文本到图像生成）[02:13] 🖼 TextBoost: Towards One-Shot Personalization of Text-to-Image Models via Fine-tuning Text Encoder（TextBoost：通过微调文本编码器实现文本到图像模型的单次个性化）[02:55] 🧑 DreamHOI: Subject-Driven Generation of 3D Human-Object Interactions with Diffusion Priors（DreamHOI：基于扩散先验的主体驱动生成3D人-物交互）[03:41] 🔄 Source2Synth: Synthetic Data Generation and Curation Grounded in Real Data Sources（基于真实数据源的合成数据生成与筛选）[04:28] 🌐 FlashSplat: 2D to 3D Gaussian Splatting Segmentation Solved Optimally（FlashSplat：二维到三维高斯喷射分割的最优解）[05:03] 🔍 Can OOD Object Detectors Learn from Foundation Models?（基础模型能否助力分布外目标检测？）[05:38] 🎥 PiTe: Pixel-Temporal Alignment for Large Video-Language Model（PiTe：大型视频-语言模型的像素-时间对齐）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递在小宇宙查看该单集文稿

6分钟

2024.09.12 每日AI论文 | 角色扮演模型评估，临床语言模型框架

[00:25] 🎭 PingPong: A Benchmark for Role-Playing Language Models with User Emulation and Multi-Model Evaluation（PingPong：用户模拟和多模型评估的角色扮演语言模型基准）[01:05] 🩺 MEDIC: Towards a Comprehensive Framework for Evaluating LLMs in Clinical Applications（MEDIC：评估临床应用中大型语言模型的综合框架）[01:56] 🧠 Agent Workflow Memory（代理工作流程记忆）[02:38] 🔄 Gated Slot Attention for Efficient Linear-Time Sequence Modeling（门控槽注意力机制在高效线性时间序列建模中的应用）[03:19] 🧠 Self-Harmonized Chain of Thought（自我协调的思维链）[03:54] 🌐 Hi3D: Pursuing High-Resolution Image-to-3D Generation with Video Diffusion Models（Hi3D：利用视频扩散模型追求高分辨率图像到3D生成）[04:35] 🤖 MVLLaVA: An Intelligent Agent for Unified and Flexible Novel View Synthesis（MVLLaVA：用于统一和灵活的新视角合成的智能代理）[05:13] 📚 gsplat: An Open-Source Library for Gaussian Splatting（gsplat：用于高斯散射的开源库）[05:51] 🔍 Can Large Language Models Unlock Novel Scientific Research Ideas?（大型语言模型能否解锁新颖的科学研究思路？）[06:23] 🎵 VMAS: Video-to-Music Generation via Semantic Alignment in Web Music Videos（VMAS：基于网络音乐视频语义对齐的视频到音乐生成）[07:10] 👤 Instant Facial Gaussians Translator for Relightable and Interactable Facial Rendering（可重照明和交互式面部渲染的即时高斯翻译器）[07:49] 🧬 ProteinBench: A Holistic Evaluation of Protein Foundation Models（ProteinBench：蛋白质基础模型的全面评估）[08:31] 🔍 Generative Hierarchical Materials Search（生成层次化材料搜索）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递在小宇宙查看该单集文稿

9分钟

69

2024.09.11 每日AI论文 | GroUSE提升RAG评估，INTRA优化功能定位。

大家好，欢迎收听今天的'Hugging Face 每日AI论文速递'。今天是2024年9月11日，我们将带您快速浏览7篇热门AI论文，内容涵盖检索增强生成系统评估、弱监督功能定位、大型语言模型的语音交互、歌曲生成系统、视频到音频合成、扩散模型微调以及3D关节的潜在视图不变嵌入。现在，让我们立即进入今天的论文速递。[00:31] 📊 GroUSE: A Benchmark to Evaluate Evaluators in Grounded Question Answering（GroUSE: 评估基于检索增强生成系统中评估器的基准）[01:16] 🔍 INTRA: Interaction Relationship-aware Weakly Supervised Affordance Grounding（INTRA：交互关系感知的弱监督功能定位）[01:49] 🗣 LLaMA-Omni: Seamless Speech Interaction with Large Language Models（LLaMA-Omni：与大型语言模型的无缝语音交互）[02:27] 🎵 SongCreator: Lyrics-based Universal Song Generation（基于歌词的通用歌曲生成系统：SongCreator）[03:03] 🎥 Draw an Audio: Leveraging Multi-Instruction for Video-to-Audio Synthesis（绘制音频：利用多指令进行视频到音频合成）[03:45] 🔄 SaRA: High-Efficient Diffusion Model Fine-tuning with Progressive Sparse Low-Rank Adaptation（SaRA：高效扩散模型微调的渐进稀疏低秩适应）[04:20] 🔄 LEIA: Latent View-invariant Embeddings for Implicit 3D Articulation（LEIA：隐式3D关节的潜在视图不变嵌入）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递在小宇宙查看该单集文稿

5分钟

75

2024.09.10 每日AI论文 | 偏好学习综述，多模态模型进化提升

大家好，欢迎来到'Hugging Face 每日AI论文速递'。今天是2024年9月10日，我们将带您快速浏览12篇热门AI论文，涵盖大语言模型、多模态学习、知识发现、机器翻译等多个前沿领域。现在，让我们立即进入今天的论文速递。[00:24] 📚 Towards a Unified View of Preference Learning for Large Language Models: A Survey（面向大语言模型偏好学习的统一视角：综述）[01:04] 📊 MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct（MMEvol：通过Evol-Instruct增强多模态大语言模型）[01:45] 🔄 OneGen: Efficient One-Pass Unified Generation and Retrieval for LLMs（OneGen：为大型语言模型提供高效的一遍统一生成与检索）[02:22] 🧠 MemoRAG: Moving towards Next-Gen RAG Via Memory-Inspired Knowledge Discovery（MemoRAG：通过记忆启发的知识发现迈向下一代RAG）[02:58] 📚 Benchmarking Chinese Knowledge Rectification in Large Language Models（大语言模型中的中文知识修正基准）[03:30] 📚 Paper Copilot: A Self-Evolving and Efficient LLM System for Personalized Academic Assistance（Paper Copilot：一个用于个性化学术辅助的自进化和高效LLM系统）[04:11] 🔍 POINTS: Improving Your Vision-language Model with Affordable Strategies（POINTS：通过经济实惠的策略提升您的视觉语言模型）[04:51] 🏠 UniDet3D: Multi-dataset Indoor 3D Object Detection（UniDet3D：多数据集室内3D物体检测）[05:31] 🌍 Open Language Data Initiative: Advancing Low-Resource Machine Translation for Karakalpak（开放语言数据倡议：推进卡拉卡尔帕克语的低资源机器翻译）[06:10] 🤖 Robot Utility Models: General Policies for Zero-Shot Deployment in New Environments（机器人效用模型：新环境中零样本部署的通用策略）[06:51] 🔍 Insights from Benchmarking Frontier Language Models on Web App Code Generation（前沿语言模型在Web应用代码生成中的基准测试洞察）[07:41] 📊 Evaluating Multiview Object Consistency in Humans and Image Models（评估人类与图像模型在多视角物体一致性上的表现）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递在小宇宙查看该单集文稿

8分钟

2024.09.09 每日AI论文 | 数据优化提升模型性能，模块化构建增强模型适应性。

各位听众朋友，大家好！今天是2024年9月09日。今天我们将带您快速浏览Hugging Face上的5篇热门AI论文，内容涵盖代码大语言模型的指令调优、可配置基础模型的模块化构建、开放式MAGVIT2的自回归视觉生成、奇虎-T2X的文本到任务扩散变换器，以及GST的高斯喷射变换器在3D人体重建中的应用。现在，让我们立即进入今天的论文速递！[00:34] 🔍 How Do Your Code LLMs Perform? Empowering Code Instruction Tuning with High-Quality Data（代码大语言模型表现如何？通过高质量数据增强代码指令调优）[01:09] 🧩 Configurable Foundation Models: Building LLMs from a Modular Perspective（可配置基础模型：从模块化角度构建大型语言模型）[01:48] 🌐 Open-MAGVIT2: An Open-Source Project Toward Democratizing Auto-regressive Visual Generation（开放式MAGVIT2：一个面向民主化自回归视觉生成的开源项目）[02:40] 🚀 Qihoo-T2X: An Efficiency-Focused Diffusion Transformer via Proxy Tokens for Text-to-Any-Task（奇虎-T2X：通过代理令牌实现文本到任意任务的高效扩散变换器）[03:20] 👤 GST: Precise 3D Human Body from a Single Image with Gaussian Splatting Transformers（GST：基于高斯喷射变换器的单张图像精确3D人体重建）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递在小宇宙查看该单集文稿

4分钟

66

【周末特辑】9月第2周最火AI论文 | 高效图像编辑新方法，音频驱动头像创新技术

各位听众朋友，大家好！欢迎收听本周的“Hugging Face 每日AI论文速递”周末特辑。每周日，我们都会为您带来一周内Hugging Face上最热门的AI论文汇总。本期节目涵盖了2024年9月2日至2024年9月8日期间的热门论文。本期我们将为您介绍5篇精彩论文，内容涉及图像编辑的自引导机制、音频驱动的人物头像技术、胃肠道数据集的文本图像对、开放式混合专家语言模型，以及大语言模型中的注意力头调查。现在，让我们立即进入本期论文的精彩内容。[00:40] TOP1(🔥80) | 🖼 Guide-and-Rescale: Self-Guidance Mechanism for Effective Tuning-Free Real Image Editing（引导与重缩放：一种无需调优的自引导机制实现高效真实图像编辑）[02:12] TOP2(🔥70) | 🎭 Loopy: Taming Audio-Driven Portrait Avatar with Long-Term Motion Dependency（Loopy：驯服音频驱动的人物头像与长期运动依赖）[04:11] TOP3(🔥64) | 📊 Kvasir-VQA: A Text-Image Pair GI Tract Dataset（Kvasir-VQA：一个带有文本图像对的胃肠道数据集）[06:17] TOP4(🔥60) | 🧠 OLMoE: Open Mixture-of-Experts Language Models（OLMoE：开放式混合专家语言模型）[08:43] TOP5(🔥60) | 🔍 Attention Heads of Large Language Models: A Survey（大语言模型中的注意力头：一项调查）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递在小宇宙查看该单集文稿

10分钟

96

2024.09.06 每日AI论文 | 注意力头机制解析，模糊测试效率提升

大家好，欢迎收听今天的'Hugging Face 每日AI论文速递'。今天是2024年9月06日，我们将带您快速浏览10篇热门AI论文，涵盖大语言模型、模糊测试、图像编辑、文档理解等多个前沿领域。现在，让我们立即进入今天的论文速递。[00:23] 🔍 Attention Heads of Large Language Models: A Survey（大语言模型中的注意力头：一项调查）[01:10] 🧠 FuzzCoder: Byte-level Fuzzing Test via Large Language Model（FuzzCoder：基于大语言模型的字节级模糊测试）[01:49] 🖼 Guide-and-Rescale: Self-Guidance Mechanism for Effective Tuning-Free Real Image Editing（引导与重缩放：一种无需调优的自引导机制实现高效真实图像编辑）[02:20] 📊 CDM: A Reliable Metric for Fair and Accurate Formula Recognition Evaluation（CDM：一种公平且准确的公式识别评估指标）[02:54] 📄 mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding（mPLUG-DocOwl2：无OCR多页文档理解的高分辨率压缩）[03:32] 🤖 From MOOC to MAIC: Reshaping Online Teaching and Learning through LLM-driven Agents（从MOOC到MAIC：通过LLM驱动的代理重塑在线教学与学习）[04:10] 🌐 Geometry Image Diffusion: Fast and Data-Efficient Text-to-3D with Image-Based Surface Representation（几何图像扩散：基于图像表面表示的高效数据驱动文本到3D生成）[04:48] 🔍 WildVis: Open Source Visualizer for Million-Scale Chat Logs in the Wild（WildVis：百万级聊天日志的开源可视化工具）[05:25] 🧊 FrozenSeg: Harmonizing Frozen Foundation Models for Open-Vocabulary Segmentation（FrozenSeg: 协调冻结基础模型用于开放词汇分割）[05:59] 📄 Report Cards: Qualitative Evaluation of Language Models Using Natural Language Summaries（报告卡：使用自然语言摘要对语言模型进行定性评估）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递在小宇宙查看该单集文稿

6分钟

68