2024.09.11 每日AI论文 | GroUSE提升RAG评估,INTRA优化功能定位。

大家好,欢迎收听今天的'Hugging Face 每日AI论文速递'。今天是2024年9月11日,我们将带您快速浏览7篇热门AI论文,内容涵盖检索增强生成系统评估、弱监督功能定位、大型语言模型的语音交互、歌曲生成系统、视频到音频合成、扩散模型微调以及3D关节的潜在视图不变嵌入。现在,让我们立即进入今天的论文速递。 [00:31] 📊 GroUSE: A Benchmark to Evaluate Evaluators in Grounded Question Answering(GroUSE: 评估基于检索增强生成系统中评估器的基准) [01:16] 🔍 INTRA: Interaction Relationship-aware Weakly Supervised Affordance Grounding(INTRA:交互关系感知的弱监督功能定位) [01:49] 🗣 LLaMA-Omni: Seamless Speech Interaction with Large Language Models(LLaMA-Omni:与大型语言模型的无缝语音交互) [02:27] 🎵 SongCreator: Lyrics-based Universal Song Generation(基于歌词的通用歌曲生成系统:SongCreator) [03:03] 🎥 Draw an Audio: Leveraging Multi-Instruction for Video-to-Audio Synthesis(绘制音频:利用多指令进行视频到音频合成) [03:45] 🔄 SaRA: High-Efficient Diffusion Model Fine-tuning with Progressive Sparse Low-Rank Adaptation(SaRA:高效扩散模型微调的渐进稀疏低秩适应) [04:20] 🔄 LEIA: Latent View-invariant Embeddings for Implicit 3D Articulation(LEIA:隐式3D关节的潜在视图不变嵌入) 【关注我们】 您还可以在以下平台找到我们,获得播客内容以外更多信息 小红书: AI速递

5分钟
62
8个月前

2024.09.10 每日AI论文 | 偏好学习综述,多模态模型进化提升

大家好,欢迎来到'Hugging Face 每日AI论文速递'。今天是2024年9月10日,我们将带您快速浏览12篇热门AI论文,涵盖大语言模型、多模态学习、知识发现、机器翻译等多个前沿领域。现在,让我们立即进入今天的论文速递。 [00:24] 📚 Towards a Unified View of Preference Learning for Large Language Models: A Survey(面向大语言模型偏好学习的统一视角:综述) [01:04] 📊 MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct(MMEvol:通过Evol-Instruct增强多模态大语言模型) [01:45] 🔄 OneGen: Efficient One-Pass Unified Generation and Retrieval for LLMs(OneGen:为大型语言模型提供高效的一遍统一生成与检索) [02:22] 🧠 MemoRAG: Moving towards Next-Gen RAG Via Memory-Inspired Knowledge Discovery(MemoRAG:通过记忆启发的知识发现迈向下一代RAG) [02:58] 📚 Benchmarking Chinese Knowledge Rectification in Large Language Models(大语言模型中的中文知识修正基准) [03:30] 📚 Paper Copilot: A Self-Evolving and Efficient LLM System for Personalized Academic Assistance(Paper Copilot:一个用于个性化学术辅助的自进化和高效LLM系统) [04:11] 🔍 POINTS: Improving Your Vision-language Model with Affordable Strategies(POINTS:通过经济实惠的策略提升您的视觉语言模型) [04:51] 🏠 UniDet3D: Multi-dataset Indoor 3D Object Detection(UniDet3D:多数据集室内3D物体检测) [05:31] 🌍 Open Language Data Initiative: Advancing Low-Resource Machine Translation for Karakalpak(开放语言数据倡议:推进卡拉卡尔帕克语的低资源机器翻译) [06:10] 🤖 Robot Utility Models: General Policies for Zero-Shot Deployment in New Environments(机器人效用模型:新环境中零样本部署的通用策略) [06:51] 🔍 Insights from Benchmarking Frontier Language Models on Web App Code Generation(前沿语言模型在Web应用代码生成中的基准测试洞察) [07:41] 📊 Evaluating Multiview Object Consistency in Humans and Image Models(评估人类与图像模型在多视角物体一致性上的表现) 【关注我们】 您还可以在以下平台找到我们,获得播客内容以外更多信息 小红书: AI速递

8分钟
99+
8个月前

2024.09.09 每日AI论文 | 数据优化提升模型性能,模块化构建增强模型适应性。

各位听众朋友,大家好!今天是2024年9月09日。今天我们将带您快速浏览Hugging Face上的5篇热门AI论文,内容涵盖代码大语言模型的指令调优、可配置基础模型的模块化构建、开放式MAGVIT2的自回归视觉生成、奇虎-T2X的文本到任务扩散变换器,以及GST的高斯喷射变换器在3D人体重建中的应用。现在,让我们立即进入今天的论文速递! [00:34] 🔍 How Do Your Code LLMs Perform? Empowering Code Instruction Tuning with High-Quality Data(代码大语言模型表现如何?通过高质量数据增强代码指令调优) [01:09] 🧩 Configurable Foundation Models: Building LLMs from a Modular Perspective(可配置基础模型:从模块化角度构建大型语言模型) [01:48] 🌐 Open-MAGVIT2: An Open-Source Project Toward Democratizing Auto-regressive Visual Generation(开放式MAGVIT2:一个面向民主化自回归视觉生成的开源项目) [02:40] 🚀 Qihoo-T2X: An Efficiency-Focused Diffusion Transformer via Proxy Tokens for Text-to-Any-Task(奇虎-T2X:通过代理令牌实现文本到任意任务的高效扩散变换器) [03:20] 👤 GST: Precise 3D Human Body from a Single Image with Gaussian Splatting Transformers(GST:基于高斯喷射变换器的单张图像精确3D人体重建) 【关注我们】 您还可以在以下平台找到我们,获得播客内容以外更多信息 小红书: AI速递

4分钟
62
8个月前

【周末特辑】9月第2周最火AI论文 | 高效图像编辑新方法,音频驱动头像创新技术

各位听众朋友,大家好!欢迎收听本周的“Hugging Face 每日AI论文速递”周末特辑。每周日,我们都会为您带来一周内Hugging Face上最热门的AI论文汇总。本期节目涵盖了2024年9月2日至2024年9月8日期间的热门论文。 本期我们将为您介绍5篇精彩论文,内容涉及图像编辑的自引导机制、音频驱动的人物头像技术、胃肠道数据集的文本图像对、开放式混合专家语言模型,以及大语言模型中的注意力头调查。 现在,让我们立即进入本期论文的精彩内容。 [00:40] TOP1(🔥80) | 🖼 Guide-and-Rescale: Self-Guidance Mechanism for Effective Tuning-Free Real Image Editing(引导与重缩放:一种无需调优的自引导机制实现高效真实图像编辑) [02:12] TOP2(🔥70) | 🎭 Loopy: Taming Audio-Driven Portrait Avatar with Long-Term Motion Dependency(Loopy:驯服音频驱动的人物头像与长期运动依赖) [04:11] TOP3(🔥64) | 📊 Kvasir-VQA: A Text-Image Pair GI Tract Dataset(Kvasir-VQA:一个带有文本图像对的胃肠道数据集) [06:17] TOP4(🔥60) | 🧠 OLMoE: Open Mixture-of-Experts Language Models(OLMoE:开放式混合专家语言模型) [08:43] TOP5(🔥60) | 🔍 Attention Heads of Large Language Models: A Survey(大语言模型中的注意力头:一项调查) 【关注我们】 您还可以在以下平台找到我们,获得播客内容以外更多信息 小红书: AI速递

10分钟
92
8个月前

2024.09.06 每日AI论文 | 注意力头机制解析,模糊测试效率提升

大家好,欢迎收听今天的'Hugging Face 每日AI论文速递'。今天是2024年9月06日,我们将带您快速浏览10篇热门AI论文,涵盖大语言模型、模糊测试、图像编辑、文档理解等多个前沿领域。现在,让我们立即进入今天的论文速递。 [00:23] 🔍 Attention Heads of Large Language Models: A Survey(大语言模型中的注意力头:一项调查) [01:10] 🧠 FuzzCoder: Byte-level Fuzzing Test via Large Language Model(FuzzCoder:基于大语言模型的字节级模糊测试) [01:49] 🖼 Guide-and-Rescale: Self-Guidance Mechanism for Effective Tuning-Free Real Image Editing(引导与重缩放:一种无需调优的自引导机制实现高效真实图像编辑) [02:20] 📊 CDM: A Reliable Metric for Fair and Accurate Formula Recognition Evaluation(CDM:一种公平且准确的公式识别评估指标) [02:54] 📄 mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding(mPLUG-DocOwl2:无OCR多页文档理解的高分辨率压缩) [03:32] 🤖 From MOOC to MAIC: Reshaping Online Teaching and Learning through LLM-driven Agents(从MOOC到MAIC:通过LLM驱动的代理重塑在线教学与学习) [04:10] 🌐 Geometry Image Diffusion: Fast and Data-Efficient Text-to-3D with Image-Based Surface Representation(几何图像扩散:基于图像表面表示的高效数据驱动文本到3D生成) [04:48] 🔍 WildVis: Open Source Visualizer for Million-Scale Chat Logs in the Wild(WildVis:百万级聊天日志的开源可视化工具) [05:25] 🧊 FrozenSeg: Harmonizing Frozen Foundation Models for Open-Vocabulary Segmentation(FrozenSeg: 协调冻结基础模型用于开放词汇分割) [05:59] 📄 Report Cards: Qualitative Evaluation of Language Models Using Natural Language Summaries(报告卡:使用自然语言摘要对语言模型进行定性评估) 【关注我们】 您还可以在以下平台找到我们,获得播客内容以外更多信息 小红书: AI速递

6分钟
55
8个月前

2024.09.05 每日AI论文 | 高效扩展多模态模型,音频驱动视频生成优化

大家好,欢迎收听今天的'Hugging Face 每日AI论文速递'。今天是2024年9月5日,我们将带您快速浏览8篇热门AI论文。本期内容涵盖了多模态大语言模型的扩展、音频驱动的人像化身、长上下文问答中的引用生成、多学科多模态理解基准的提升,以及代码预训练中的数据解密等多个前沿领域。现在,让我们立即进入今天的论文速递。 [00:31] 📊 LongLLaVA: Scaling Multi-modal LLMs to 1000 Images Efficiently via Hybrid Architecture(LongLLaVA:通过混合架构高效扩展多模态大语言模型至1000张图像) [01:13] 🎙 Loopy: Taming Audio-Driven Portrait Avatar with Long-Term Motion Dependency(Loopy: 驯服音频驱动的人像化身与长期运动依赖) [01:48] 📚 LongCite: Enabling LLMs to Generate Fine-grained Citations in Long-context QA(LongCite: 在长上下文问答中使LLMs生成细粒度引用的方法) [02:29] 📊 MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark(MMMU-Pro:一个更强大的多学科多模态理解基准) [03:02] 🧩 Arctic-SnowCoder: Demystifying High-Quality Data in Code Pretraining(北极雪编码器:解密代码预训练中的高质量数据) [03:39] 🗳 Political DEBATE: Efficient Zero-shot and Few-shot Classifiers for Political Text(政治辩论:高效的零样本和少样本政治文本分类器) [04:15] ⚡ FastVoiceGrad: One-step Diffusion-Based Voice Conversion with Adversarial Conditional Diffusion Distillation(FastVoiceGrad:一步扩散基于对抗条件扩散蒸馏的语音转换) [04:48] 🤖 Affordance-based Robot Manipulation with Flow Matching(基于流匹配的机器人操作框架) 【关注我们】 您还可以在以下平台找到我们,获得播客内容以外更多信息 小红书: AI速递

5分钟
39
8个月前

2024.09.04 每日AI论文 | Kvasir-VQA提升医疗诊断,LongRecipe扩展语言模型上下文

大家好,欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年9月04日,我们将带您快速浏览16篇热门AI论文,涵盖数据集、语言模型、视频生成等多个领域。现在,让我们立即进入今天的论文速递。 [00:22] 📊 Kvasir-VQA: A Text-Image Pair GI Tract Dataset(Kvasir-VQA:一个带有文本图像对的胃肠道数据集) [00:58] 📚 LongRecipe: Recipe for Efficient Long Context Generalization in Large Languge Models(LongRecipe:大型语言模型中高效长上下文泛化的训练策略) [01:43] 🧠 OLMoE: Open Mixture-of-Experts Language Models(OLMoE:开放式混合专家语言模型) [02:23] 🎶 FLUX that Plays Music(能播放音乐的FLUX) [03:00] 📹 DepthCrafter: Generating Consistent Long Depth Sequences for Open-world Videos(DepthCrafter:为开放世界视频生成一致的长深度序列) [03:41] 🎥 VideoLLaMB: Long-context Video Understanding with Recurrent Memory Bridges(VideoLLaMB:利用循环记忆桥进行长上下文视频理解) [04:24] 🎥 Compositional 3D-aware Video Generation with LLM Director(基于LLM导演的组合式3D感知视频生成) [05:02] 🤖 Diffusion Policy Policy Optimization(扩散策略优化) [05:37] 🚀 LinFusion: 1 GPU, 1 Minute, 16K Image(LinFusion:1 GPU,1分钟,16K图像) [06:28] 🔍 ContextCite: Attributing Model Generation to Context(ContextCite:将模型生成归因于上下文) [07:05] 📺 OD-VAE: An Omni-dimensional Video Compressor for Improving Latent Video Diffusion Model(OD-VAE:一种用于改进潜在视频扩散模型的全方位视频压缩器) [07:44] 📉 Accurate Compression of Text-to-Image Diffusion Models via Vector Quantization(通过向量量化实现文本到图像扩散模型的精确压缩) [08:21] 🎥 Follow-Your-Canvas: Higher-Resolution Video Outpainting with Extensive Content Generation(Follow-Your-Canvas:高分辨率视频外绘与广泛内容生成) [08:58] 🧠 Density Adaptive Attention-based Speech Network: Enhancing Feature Understanding for Mental Health Disorders(密度自适应注意力语音网络:增强心理健康障碍的特征理解) [09:35] 📚 Know When to Fuse: Investigating Non-English Hybrid Retrieval in the Legal Domain(了解何时融合:研究法律领域中的非英语混合检索) [10:10] 📚 The MERIT Dataset: Modelling and Efficiently Rendering Interpretable Transcripts(MERIT数据集:建模和高效渲染可解释的转录文本) 【关注我们】 您还可以在以下平台找到我们,获得播客内容以外更多信息 小红书: AI速递

11分钟
73
8个月前

2024.09.02 每日AI论文 | 科学文献理解模型显著提升,文本到图像个性化方法优化。

大家好,欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年9月02日,我们将带您快速浏览14篇热门AI论文,涵盖科学文献理解、文本到图像个性化、多模态模型评估等多个前沿领域。现在,让我们立即进入精彩的论文世界。 [00:24] 📚 SciLitLLM: How to Adapt LLMs for Scientific Literature Understanding(SciLitLLM:如何适应大型语言模型以理解科学文献) [01:02] 🖼 CoRe: Context-Regularized Text Embedding Learning for Text-to-Image Personalization(CoRe:基于上下文正则化的文本嵌入学习在文本到图像个性化中的应用) [01:41] 🏙 UrBench: A Comprehensive Benchmark for Evaluating Large Multimodal Models in Multi-View Urban Scenarios(UrBench:在多视角城市场景中评估大型多模态模型的综合基准) [02:24] 📚 The VoxCeleb Speaker Recognition Challenge: A Retrospective(VoxCeleb说话人识别挑战回顾) [02:59] 🌍 InkubaLM: A small language model for low-resource African languages(InkubaLM:一种针对低资源非洲语言的小型语言模型) [03:46] 📚 CURLoRA: Stable LLM Continual Fine-Tuning and Catastrophic Forgetting Mitigation(CURLoRA:稳定的大型语言模型持续微调与灾难性遗忘缓解) [04:24] 🌐 CrossViewDiff: A Cross-View Diffusion Model for Satellite-to-Street View Synthesis(跨视图扩散模型:卫星视图到街景视图合成) [05:07] 📚 Jina-ColBERT-v2: A General-Purpose Multilingual Late Interaction Retriever(Jina-ColBERT-v2:一种通用多语言后期交互检索器) [05:38] 📚 SurveySum: A Dataset for Summarizing Multiple Scientific Articles into a Survey Section(SurveySum:将多篇科学文章摘要成综述部分的语料库) [06:22] 🩺 Automatic Differential Diagnosis using Transformer-Based Multi-Label Sequence Classification(基于Transformer的多标签序列分类自动鉴别诊断) [07:04] 🔍 GIFT-SW: Gaussian noise Injected Fine-Tuning of Salient Weights for LLMs(GIFT-SW:针对大型语言模型的显著权重注入高斯噪声的微调方法) [07:38] 🧬 Large-Scale Multi-omic Biosequence Transformers for Modeling Peptide-Nucleotide Interactions(大规模多组学生物序列变换器用于模拟肽-核苷酸相互作用) [08:16] 🔍 VLM4Bio: A Benchmark Dataset to Evaluate Pretrained Vision-Language Models for Trait Discovery from Biological Images(VLM4Bio:评估预训练视觉-语言模型在生物图像中特征发现能力的基准数据集) [09:00] 🌍 ClimDetect: A Benchmark Dataset for Climate Change Detection and Attribution(ClimDetect:气候变化检测与归因的基准数据集) 【关注我们】 您还可以在以下平台找到我们,获得播客内容以外更多信息 小红书: AI速递

10分钟
99
8个月前

【月末特辑】8月最火AI论文 | 交互式学习工具普及AI教育,边缘写作提升长上下文检索性能。

大家好,欢迎收听“Hugging Face 每日AI论文速递”月末特辑。每个月的最后一天,我们都会为您带来当月Hugging Face上最热门的AI论文汇总。今天,我们将带您回顾2024年8月的精彩研究成果。 本期节目涵盖了从文本生成模型的交互式学习、长上下文检索的新推理模式,到实时游戏引擎中的扩散模型应用,以及图像与视频中的任意分割技术等多个前沿领域。此外,我们还将探讨AI在科学发现自动化、多模态大型语言模型的视觉表示等方面的最新进展。 现在,让我们一起深入这些令人兴奋的AI研究,探索科技的未来。节目马上开始,敬请期待! [00:47] TOP1(🔥148) | 🔍 Transformer Explainer: Interactive Learning of Text-Generative Models(Transformer解释器:交互式学习文本生成模型) [02:54] TOP2(🔥130) | 📚 Writing in the Margins: Better Inference Pattern for Long Context Retrieval(边缘写作:长上下文检索的更好推理模式) [04:59] TOP3(🔥108) | 🎮 Diffusion Models Are Real-Time Game Engines(扩散模型作为实时游戏引擎) [06:58] TOP4(🔥100) | 🎥 SAM 2: Segment Anything in Images and Videos(SAM 2:图像与视频中的任意分割) [08:50] TOP5(🔥100) | 🤖 The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery(AI科学家:迈向完全自动化的开放式科学发现) [10:26] TOP6(🔥99) | 🦙 The Llama 3 Herd of Models(Llama 3 模型群) [12:37] TOP7(🔥97) | 🔍 Building and better understanding vision-language models: insights and future directions(构建和更好地理解视觉-语言模型:见解与未来方向) [15:10] TOP8(🔥95) | 🤖 xGen-MM (BLIP-3): A Family of Open Large Multimodal Models(xGen-MM (BLIP-3): 开放大型多模态模型系列) [17:05] TOP9(🔥84) | 📊 GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI(GMAI-MMBench:面向通用医疗AI的综合多模态评估基准) [19:24] TOP10(🔥81) | 🔍 Law of Vision Representation in MLLMs(多模态大型语言模型中的视觉表示定律) 【关注我们】 您还可以在以下平台找到我们,获得播客内容以外更多信息 小红书: AI速递

21分钟
86
8个月前

【周末特辑】8月第5周最火AI论文 | 边缘写作提升长上下文检索性能,扩散模型实现实时游戏模拟。

大家好,欢迎收听《Hugging Face 每日AI论文速递》周末特辑。每周日,我们都会为您带来一周内Hugging Face上最受欢迎的AI论文摘要。本期节目涵盖的日期是从2024年8月26日至2024年9月01日。 在这一期中,我们将深入探讨五篇引人注目的论文,包括长上下文检索的推理模式、扩散模型在实时游戏引擎中的应用、视觉-语言模型的构建与理解、多模态大型语言模型中混合编码器的设计空间探索,以及多模态大型语言模型中的视觉表示定律。 现在,让我们立即进入本期节目的精彩内容。 [00:43] TOP1(🔥126) | 📚 Writing in the Margins: Better Inference Pattern for Long Context Retrieval(边缘写作:长上下文检索的更好推理模式) [02:46] TOP2(🔥102) | 🎮 Diffusion Models Are Real-Time Game Engines(扩散模型作为实时游戏引擎) [05:00] TOP3(🔥94) | 🔍 Building and better understanding vision-language models: insights and future directions(构建和更好地理解视觉-语言模型:见解与未来方向) [07:16] TOP4(🔥62) | 🦅 Eagle: Exploring The Design Space for Multimodal LLMs with Mixture of Encoders(Eagle:探索多模态大型语言模型中混合编码器的设计空间) [09:07] TOP5(🔥62) | 🔍 Law of Vision Representation in MLLMs(多模态大型语言模型中的视觉表示定律) 【关注我们】 您还可以在以下平台找到我们,获得播客内容以外更多信息 小红书: AI速递

11分钟
72
8个月前

2024.08.30 每日AI论文 | 视觉表示优化模型性能,CogVLM2提升图像视频理解

大家好,欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年8月30日,我们将带您快速浏览9篇热门AI论文,涵盖多模态大型语言模型、视觉语言模型、视频扩散模型等多个前沿领域。现在,让我们立即进入精彩的论文世界。 [00:24] 🔍 Law of Vision Representation in MLLMs(多模态大型语言模型中的视觉表示定律) [01:03] 🔍 CogVLM2: Visual Language Models for Image and Video Understanding(CogVLM2:用于图像和视频理解的视觉语言模型) [01:40] 🌐 ReconX: Reconstruct Any Scene from Sparse Views with Video Diffusion Model(ReconX:利用视频扩散模型从稀疏视角重建任意场景) [02:18] 🎵 WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling(WavTokenizer:一种高效的音频语言建模声学离散编解码器标记器) [02:54] 🎥 SAM2Point: Segment Any 3D as Videos in Zero-shot and Promptable Manners(SAM2Point:零样本和可提示方式下的3D视频分割) [03:28] 🎨 CSGO: Content-Style Composition in Text-to-Image Generation(CSGO:文本到图像生成中的内容-风格组合) [04:18] 🌐 3D Reconstruction with Spatial Memory(基于空间记忆的三维重建) [04:54] 📈 Scaling Up Diffusion and Flow-based XGBoost Models(扩展扩散和基于流的XGBoost模型) [05:29] 🎭 StyleRemix: Interpretable Authorship Obfuscation via Distillation and Perturbation of Style Elements(StyleRemix:通过蒸馏和扰动风格元素进行可解释的作者身份混淆) 【关注我们】 您还可以在以下平台找到我们,获得播客内容以外更多信息 小红书: AI速递

6分钟
60
8个月前
EarsOnMe

加入我们的 Discord

与播客爱好者一起交流

立即加入

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧