节目列表: HuggingFace 每日AI论文速递 - EarsOnMe | 发现和收听来自小宇宙的热门播客

2025.05.16 | 推理模型元能力提升；系统提示优化与鲁棒性增强

本期的 15 篇论文如下： [00:24] 💡 Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models（超越“Aha!”时刻：迈向大型推理模型中系统性元能力对齐） [01:02] 🤖 System Prompt Optimization with Meta-Learning（基于元学习的系统提示优化） [01:47] 🤖 EnerVerse-AC: Envisioning Embodied Environments with Action Condition（EnerVerse-AC：通过动作条件设想具身环境） [02:29] 🧠 The CoT Encyclopedia: Analyzing, Predicting, and Controlling how a Reasoning Model will Think（CoT百科全书：分析、预测和控制推理模型如何思考） [03:17] 🤖 EWMBench: Evaluating Scene, Motion, and Semantic Quality in Embodied World Models（EWMBench：具身世界模型中场景、运动和语义质量的评估） [03:57] 🖼 End-to-End Vision Tokenizer Tuning（端到端视觉标记器调优） [04:34] 📈 WorldPM: Scaling Human Preference Modeling（世界偏好建模：扩展人类偏好模型） [05:13] 🤖 MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering（MLE-Dojo：用于增强机器学习工程中LLM代理的交互式环境） [06:01] 🧩 Achieving Tokenizer Flexibility in Language Models through Heuristic Adaptation and Supertoken Learning（通过启发式适配和超Token学习实现语言模型中的Tokenizer灵活性） [06:43] 🎨 Style Customization of Text-to-Vector Generation with Image Diffusion Priors（基于图像扩散先验的文本到矢量生成风格定制） [07:25] 🧠 J1: Incentivizing Thinking in LLM-as-a-Judge via Reinforcement Learning（J1：通过强化学习激励LLM作为裁判时的思考） [08:07] 👉 PointArena: Probing Multimodal Grounding Through Language-Guided Pointing（PointArena：通过语言引导的指向探测多模态理解） [08:47] 🖼 Depth Anything with Any Prior（任意先验的深度感知） [09:29] 🖼 OpenThinkIMG: Learning to Think with Images via Visual Tool Reinforcement Learning（OpenThinkIMG: 通过视觉工具强化学习，学习用图像思考） [10:14] 🚀 Parallel Scaling Law for Language Models（语言模型的并行扩展法则）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

11分钟

51

2天前

2025.05.15 | 解耦学习提升感知性能；多模态模型优化图像生成。

本期的 11 篇论文如下： [00:23] 🖼 DeCLIP: Decoupled Learning for Open-Vocabulary Dense Perception（DeCLIP：用于开放词汇密集感知的解耦学习） [01:02] 🖼 BLIP3-o: A Family of Fully Open Unified Multimodal Models-Architecture, Training and Dataset（BLIP3-o：一族完全开放的统一多模态模型——架构、训练和数据集） [01:41] 💡 Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures（DeepSeek-V3 的深度剖析：AI 架构的扩展挑战与硬件思考） [02:24] 🎨 Marigold: Affordable Adaptation of Diffusion-Based Image Generators for Image Analysis（Marigold：用于图像分析的基于扩散的图像生成器的经济型适配） [03:00] 🤖 UniSkill: Imitating Human Videos via Cross-Embodiment Skill Representations（UniSkill：通过跨具身技能表征模仿人类视频） [03:42] 🐛 SweRank: Software Issue Localization with Code Ranking（SweRank：基于代码排序的软件问题定位） [04:23] 🤔 VCRBench: Exploring Long-form Causal Reasoning Capabilities of Large Video Language Models（VCRBench：探索大型视频语言模型在长程因果推理方面的能力） [05:14] 🖼 CAST: Component-Aligned 3D Scene Reconstruction from an RGB Image（CAST：基于RGB图像的组件对齐三维场景重建） [05:49] 🤔 Omni-R1: Do You Really Need Audio to Fine-Tune Your Audio LLM?（Omni-R1: 微调音频大语言模型真的需要音频数据吗？） [06:27] 🤔 Visually Interpretable Subtask Reasoning for Visual Question Answering（视觉问答中基于视觉可解释性的子任务推理） [06:59] 🚁 DetReIDX: A Stress-Test Dataset for Real-World UAV-Based Person Recognition（DetReIDX：一个用于现实世界无人机人员识别的压力测试数据集）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

8分钟

57

3天前

2025.05.14 | 零样本语音合成新模型；多维度评估LLM指令能力

本期的 8 篇论文如下： [00:25] 🗣 MiniMax-Speech: Intrinsic Zero-Shot Text-to-Speech with a Learnable Speaker Encoder（MiniMax-Speech：具有可学习说话人编码器的内在零样本语音合成） [01:00] 🤖 A Multi-Dimensional Constraint Framework for Evaluating and Improving Instruction Following in Large Language Models（用于评估和改进大型语言模型指令遵循能力的多维度约束框架） [01:47] 🎮 Measuring General Intelligence with Generated Games（基于生成游戏测量通用智能） [02:29] 🎦 SkillFormer: Unified Multi-View Video Understanding for Proficiency Estimation（SkillFormer：用于评估技能水平的统一多视角视频理解） [03:14] 🤖 NavDP: Learning Sim-to-Real Navigation Diffusion Policy with Privileged Information Guidance（NavDP：基于特权信息引导的Sim-to-Real导航扩散策略学习） [03:51] 🔍 Optimizing Retrieval-Augmented Generation: Analysis of Hyperparameter Impact on Performance and Efficiency（优化检索增强生成：超参数对性能和效率影响的分析） [04:28] 🇻 ViMRHP: A Vietnamese Benchmark Dataset for Multimodal Review Helpfulness Prediction via Human-AI Collaborative Annotation（ViMRHP：一个人机协作标注的越南语多模态评论有用性预测基准数据集） [05:04] 📖 Advancing Arabic Reverse Dictionary Systems: A Transformer-Based Approach with Dataset Construction Guidelines（推进阿拉伯语逆向词典系统：一种基于Transformer的方法与数据集构建指南）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

6分钟

87

4天前

2025.05.13 | 视觉-语言模型提升多模态能力；优化训练策略增强推理潜力。

本期的 15 篇论文如下： [00:24] 💡 Seed1.5-VL Technical Report（Seed1.5-VL 技术报告） [01:04] 🧠 MiMo: Unlocking the Reasoning Potential of Language Model -- From Pretraining to Posttraining（MiMo：释放语言模型的推理潜力——从预训练到后训练） [01:48] 🖼 Step1X-3D: Towards High-Fidelity and Controllable Generation of Textured 3D Assets（Step1X-3D：迈向高质量和可控的纹理3D资产生成） [02:29] 🤝 Learning from Peers in Reasoning Models（推理模型中的同伴学习） [03:08] 🎨 Unified Continuous Generative Models（统一连续生成模型） [03:49] 🤖 REFINE-AF: A Task-Agnostic Framework to Align Language Models via Self-Generated Instructions using Reinforcement Learning from Automated Feedback（REFINE-AF：一种通过强化学习和自动反馈，以自生成指令对齐语言模型的任务无关框架） [04:44] 💃 DanceGRPO: Unleashing GRPO on Visual Generation（DanceGRPO：在视觉生成领域释放GRPO的潜力） [05:25] 🧠 AttentionInfluence: Adopting Attention Head Influence for Weak-to-Strong Pretraining Data Selection（AttentionInfluence：采用注意力头影响进行弱到强预训练数据选择） [06:10] 🌐 WebGen-Bench: Evaluating LLMs on Generating Interactive and Functional Websites from Scratch（WebGen-Bench：评估大型语言模型从零生成交互式和功能性网站的能力） [06:53] 📈 Learning Dynamics in Continual Pre-Training for Large Language Models（大型语言模型持续预训练中的学习动态） [07:28] 🏆 Skywork-VL Reward: An Effective Reward Model for Multimodal Understanding and Reasoning（Skywork-VL Reward：一种用于多模态理解和推理的有效奖励模型） [08:11] 🧠 Reinforced Internal-External Knowledge Synergistic Reasoning for Efficient Adaptive Search Agent（用于高效自适应搜索代理的增强型内外知识协同推理） [08:50] 🤖 H$^{\mathbf{3}}$DP: Triply-Hierarchical Diffusion Policy for Visuomotor Learning（H$^{\mathbf{3}}$DP：用于视觉运动学习的三重分层扩散策略） [09:36] 🎨 Continuous Visual Autoregressive Generation via Score Maximization（基于得分最大化的连续视觉自回归生成） [10:26] 🧠 Overflow Prevention Enhances Long-Context Recurrent LLMs（溢出预防增强长文本循环LLM）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

11分钟

99+

5天前

2025.05.12 | 波兰语模型优化；高效参数利用

本期的 7 篇论文如下： [00:23] 🇵 Bielik v3 Small: Technical Report（Bielik v3 Small：技术报告） [01:07] 🇵 Bielik 11B v2 Technical Report（Bielik 11B v2 技术报告） [01:42] 🤖 UniVLA: Learning to Act Anywhere with Task-centric Latent Actions（UniVLA：通过任务中心潜在动作学习在任意环境行动） [02:30] 🎨 G-FOCUS: Towards a Robust Method for Assessing UI Design Persuasiveness（G-FOCUS：迈向评估用户界面设计说服力的稳健方法） [03:16] ⭐ Sailing AI by the Stars: A Survey of Learning from Rewards in Post-Training and Test-Time Scaling of Large Language Models（星辰引航：大型语言模型后训练与测试时扩展中基于奖励学习的综述） [03:55] ⚕ Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information（健康的大语言模型？英国政府公共健康信息知识基准测试） [04:37] 🖼 A Preliminary Study for GPT-4o on Image Restoration（GPT-4o 在图像修复中的初步研究）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

5分钟

81

6天前

2025.05.16 | 推理模型元能力提升；系统提示优化与鲁棒性增强

2025.05.15 | 解耦学习提升感知性能；多模态模型优化图像生成。

2025.05.14 | 零样本语音合成新模型；多维度评估LLM指令能力

2025.05.13 | 视觉-语言模型提升多模态能力；优化训练策略增强推理潜力。

2025.05.12 | 波兰语模型优化；高效参数利用

推荐播单

加入我们的 Discord

播放列表