节目列表: HuggingFace 每日AI论文速递 - EarsOnMe

2026.02.24 | VBVR百万视频补推理教材；VLANeXt十二配方炼成VLA

【赞助商】通勤路上就听AI每周谈。AI每周谈，每周带你回顾上周AI大事传送门 🔗https://www.xiaoyuzhoufm.com/podcast/688a34636f5a275f1cba40fd 【目录】本期的 14 篇论文如下： [00:31] 🧠 A Very Big Video Reasoning Suite（一个超大规模视频推理套件） [01:16] 🧪 VLANeXt: Recipes for Building Strong VLA Models（VLANeXt：构建强大视觉-语言-动作模型的实践指南） [02:06] 🧭 ManCAR: Manifold-Constrained Latent Reasoning with Adaptive Test-Time Computation for Sequential Recommendation（ManCAR：用于序列推荐的具有自适应测试时计算的流形约束潜在推理） [02:54] 🤖 TOPReward: Token Probabilities as Hidden Zero-Shot Rewards for Robotics（TOPReward：将标记概率作为机器人学的隐藏零样本奖励） [03:45] 📱 Mobile-O: Unified Multimodal Understanding and Generation on Mobile Device（Mobile-O：移动设备上的统一多模态理解与生成） [04:40] 🧠 DSDR: Dual-Scale Diversity Regularization for Exploration in LLM Reasoning（DSDR：用于大语言模型推理探索的双尺度多样性正则化） [05:54] 🎯 Learning Cross-View Object Correspondence via Cycle-Consistent Mask Prediction（通过循环一致掩码预测学习跨视角物体对应关系） [06:44] 🎻 SkillOrchestra: Learning to Route Agents via Skill Transfer（SkillOrchestra：通过技能迁移学习路由智能体） [07:28] 🤖 RoboCurate: Harnessing Diversity with Action-Verified Neural Trajectory for Robot Learning（RoboCurate：利用动作验证神经轨迹的多样性进行机器人学习） [08:02] 🚀 K-Search: LLM Kernel Generation via Co-Evolving Intrinsic World Model（K-Search：通过协同演化内在世界模型进行LLM内核生成） [08:43] 🤖 SimVLA: A Simple VLA Baseline for Robotic Manipulation（SimVLA：用于机器人操作的简单视觉-语言-动作基线） [09:29] 🧠 tttLRM: Test-Time Training for Long Context and Autoregressive 3D Reconstruction（tttLRM：基于测试时训练的长上下文自回归三维重建） [10:23] 🗜 Nacrith: Neural Lossless Compression via Ensemble Context Modeling and High-Precision CDF Coding（Nacrith：基于集成上下文建模与高精度CDF编码的神经无损压缩） [11:08] 🧬 AAVGen: Precision Engineering of Adeno-associated Viral Capsids for Renal Selective Targeting（AAVGen：用于肾脏选择性靶向的腺相关病毒衣壳精准工程）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

12分钟

99+

2个月前

2026.02.23 | VESPO防抖离线RL；推理模型学会“点到为止”

HuggingFace 每日AI论文速递

【赞助商】通勤路上就听AI每周谈。AI每周谈，每周带你回顾上周AI大事传送门 🔗https://www.xiaoyuzhoufm.com/podcast/688a34636f5a275f1cba40fd 【目录】本期的 10 篇论文如下： [00:40] ⚖ VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training（VESPO：用于稳定离策略LLM训练的变分序列级软策略优化） [01:45] 💭 Does Your Reasoning Model Implicitly Know When to Stop Thinking?（你的推理模型是否隐含地知道何时停止思考？） [02:44] 🎮 Generated Reality: Human-centric World Simulation using Interactive Video Generation with Hand and Camera Control（生成现实：基于交互式视频生成与手部和相机控制的人本世界模拟） [03:24] 🤖 EgoPush: Learning End-to-End Egocentric Multi-Object Rearrangement for Mobile Robots（EgoPush：面向移动机器人的端到端自我中心多物体重排学习） [04:11] 🤖 SARAH: Spatially Aware Real-time Agentic Humans（SARAH：具备空间感知能力的实时拟人化智能体） [05:05] 🎬 VidEoMT: Your ViT is Secretly Also a Video Segmentation Model（VidEoMT：你的ViT模型暗中也是一个视频分割模型） [05:51] ✂ Sink-Aware Pruning for Diffusion Language Models（面向扩散语言模型的汇点感知剪枝） [06:36] 🎯 Selective Training for Large Vision Language Models via Visual Information Gain（基于视觉信息增益的大型视觉语言模型选择性训练） [07:18] 🧮 DeepVision-103K: A Visually Diverse, Broad-Coverage, and Verifiable Mathematical Dataset for Multimodal Reasoning（DeepVision-103K：一个视觉多样、覆盖广泛且可验证的多模态推理数学数据集） [08:16] 🤖 Learning Smooth Time-Varying Linear Policies with an Action Jacobian Penalty（通过动作雅可比惩罚学习平滑时变线性策略）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

9分钟

99+

2个月前

【周末特辑】2月第4周最火AI论文 | 少即是够；FAC靶向补特征；噪声基准SQuTR

HuggingFace 每日AI论文速递

【赞助商】通勤路上就听AI每周谈。AI每周谈，每周带你回顾上周AI大事传送门 🔗https://www.xiaoyuzhoufm.com/podcast/688a34636f5a275f1cba40fd 【目录】本期的 5 篇论文如下： [00:45] TOP1(🔥219) | 🧠 Less is Enough: Synthesizing Diverse Data in Feature Space of LLMs（少即是够：在大型语言模型特征空间中合成多样化数据） [03:23] TOP2(🔥140) | 🔊 SQuTR: A Robustness Benchmark for Spoken Query to Text Retrieval under Acoustic Noise（SQuTR：声学噪声下口语查询文本检索的鲁棒性基准） [05:03] TOP3(🔥71) | 🤖 GLM-5: from Vibe Coding to Agentic Engineering（GLM-5：从氛围编码到智能体工程） [06:53] TOP4(🔥61) | 🧠 Experiential Reinforcement Learning（经验性强化学习） [08:50] TOP5(🔥58) | 🏥 MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs（MedXIAOHE：构建医疗多模态大语言模型的完整方案）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

11分钟

99+

2个月前

2026.02.20 | 砍95%注意力画质反升；边压缩边生成FID 1.4

HuggingFace 每日AI论文速递

【赞助商】通勤路上就听AI每周谈。AI每周谈，每周带你回顾上周AI大事传送门 🔗https://www.xiaoyuzhoufm.com/podcast/688a34636f5a275f1cba40fd 【目录】本期的 15 篇论文如下： [00:31] ⚡ SpargeAttention2: Trainable Sparse Attention via Hybrid Top-k+Top-p Masking and Distillation Fine-Tuning（SpargeAttention2：通过混合Top-k+Top-p掩码与蒸馏微调实现可训练的稀疏注意力） [01:27] 🧠 Unified Latents (UL): How to train your latents（统一隐变量（UL）：如何训练你的隐变量） [02:05] 🤖 Mobile-Agent-v3.5: Multi-platform Fundamental GUI Agents（Mobile-Agent-v3.5：多平台基础图形用户界面智能体） [02:58] 🚗 "What Are You Doing?": Effects of Intermediate Feedback from Agentic LLM In-Car Assistants During Multi-Step Processing（“你在做什么？”：多步骤处理过程中来自具身化LLM车载助手的中间反馈效果研究） [03:45] ⚠ Frontier AI Risk Management Framework in Practice: A Risk Analysis Technical Report v1.5（前沿人工智能风险管理框架实践：风险分析技术报告 v1.5） [04:40] ⚡ DDiT: Dynamic Patch Scheduling for Efficient Diffusion Transformers（DDiT：面向高效扩散变换器的动态补丁调度） [05:39] 🧠 Arcee Trinity Large Technical Report（Arcee Trinity 大型技术报告） [06:23] 🖥 Computer-Using World Model（计算机使用世界模型） [07:20] 🔬 ArXiv-to-Model: A Practical Study of Scientific LM Training（ArXiv到模型：科学语言模型训练的实践研究） [07:59] 🧬 Discovering Multiagent Learning Algorithms with Large Language Models（利用大语言模型发现多智能体学习算法） [08:42] 🖐 TactAlign: Human-to-Robot Policy Transfer via Tactile Alignment（TactAlign：通过触觉对齐实现人机策略迁移） [09:24] 🤖 FRAPPE: Infusing World Modeling into Generalist Policies via Multiple Future Representation Alignment（FRAPPE：通过多未来表示对齐将世界建模注入通用策略） [10:08] 🧠 World Models for Policy Refinement in StarCraft II（用于《星际争霸II》策略优化的世界模型） [10:46] ⚡ 2Mamba2Furious: Linear in Complexity, Competitive in Accuracy（2Mamba2Furious：线性复杂度，媲美准确度） [11:19] 🤿 StereoAdapter-2: Globally Structure-Consistent Underwater Stereo Depth Estimation（StereoAdapter-2：全局结构一致的水下立体深度估计）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

12分钟

99+

2个月前

2026.02.19 | 可学习路由+量化加速视频扩散；残差追踪让人形90%抓取

HuggingFace 每日AI论文速递

【赞助商】通勤路上就听AI每周谈。AI每周谈，每周带你回顾上周AI大事传送门 🔗https://www.xiaoyuzhoufm.com/podcast/688a34636f5a275f1cba40fd 【目录】本期的 14 篇论文如下： [00:30] ⚡ SLA2: Sparse-Linear Attention with Learnable Routing and QAT（SLA2：具有可学习路由和量化感知训练的稀疏线性注意力） [01:16] 🤖 Learning Humanoid End-Effector Control for Open-Vocabulary Visual Loco-Manipulation（面向开放词汇视觉移动操作的人形机器人末端执行器控制学习） [02:02] 🧠 RynnBrain: Open Embodied Foundation Models（RynnBrain：开放式具身基础模型） [02:46] 🔑 Empty Shelves or Lost Keys? Recall Is the Bottleneck for Parametric Factuality（空书架还是丢钥匙？回忆是参数化事实性的瓶颈） [03:33] 🕺 SAM 3D Body: Robust Full-Body Human Mesh Recovery（SAM 3D 人体：鲁棒的全身体三维人体网格重建） [04:41] 🤝 Multi-agent cooperation through in-context co-player inference（通过上下文共玩家推断实现多智能体合作） [05:28] 📊 MAEB: Massive Audio Embedding Benchmark（MAEB：大规模音频嵌入基准测试） [06:04] 🤖 World Action Models are Zero-shot Policies（世界行动模型是零样本策略） [06:44] 🔬 Towards a Science of AI Agent Reliability（迈向AI智能体可靠性的科学） [07:20] 🧠 MMA: Multimodal Memory Agent（MMA：多模态记忆智能体） [08:09] 🚀 Optimizing Few-Step Generation with Adaptive Matching Distillation（通过自适应匹配蒸馏优化少步生成） [08:56] 🧭 Learning Situated Awareness in the Real World（在现实世界中学习情境感知） [09:28] ⚠ Visual Memory Injection Attacks for Multi-Turn Conversations（面向多轮对话的视觉记忆注入攻击） [10:10] 🤖 BiManiBench: A Hierarchical Benchmark for Evaluating Bimanual Coordination of Multimodal Large Language Models（BiManiBench：用于评估多模态大语言模型双手协调能力的层次化基准）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

11分钟

72

2个月前

2026.02.18 | GLM-5智能体工程登顶50分；SAE可解释性遭随机基线打脸

HuggingFace 每日AI论文速递

【赞助商】通勤路上就听AI每周谈。AI每周谈，每周带你回顾上周AI大事传送门 🔗https://www.xiaoyuzhoufm.com/podcast/688a34636f5a275f1cba40fd 【目录】本期的 15 篇论文如下： [00:31] 🤖 GLM-5: from Vibe Coding to Agentic Engineering（GLM-5：从氛围编码到智能体工程） [01:11] 🔍 Sanity Checks for Sparse Autoencoders: Do SAEs Beat Random Baselines?（稀疏自编码器的合理性检验：SAE是否优于随机基线？） [01:57] 🤖 Does Socialization Emerge in AI Agent Society? A Case Study of Moltbook（人工智能代理社会是否会出现社会化现象？以Moltbook为例的研究） [02:41] 🧪 ResearchGym: Evaluating Language Model Agents on Real-World AI Research（ResearchGym：在真实世界AI研究上评估语言模型智能体） [03:54] 🧠 UniT: Unified Multimodal Chain-of-Thought Test-time Scaling（UniT：统一多模态思维链测试时扩展） [04:50] ⚙ COMPOT: Calibration-Optimized Matrix Procrustes Orthogonalization for Transformers Compression（COMPOT：面向Transformer压缩的校准优化矩阵正交Procrustes方法） [05:38] 🧠 Revisiting the Platonic Representation Hypothesis: An Aristotelian View（重访柏拉图式表征假说：一种亚里士多德式的观点） [06:23] ⚖ Understanding vs. Generation: Navigating Optimization Dilemma in Multimodal Models（理解与生成：多模态模型中的优化困境探索） [07:11] 🎭 On Surprising Effectiveness of Masking Updates in Adaptive Optimizers（论掩码更新在自适应优化器中的惊人有效性） [07:56] ⚕ ClinAlign: Scaling Healthcare Alignment from Clinician Preference（ClinAlign：基于临床医生偏好的医疗对齐扩展） [08:51] ⚖ STAPO: Stabilizing Reinforcement Learning for LLMs by Silencing Rare Spurious Tokens（STAPO：通过抑制罕见伪标记来稳定大语言模型的强化学习） [09:37] 🔍 Visual Persuasion: What Influences Decisions of Vision-Language Models?（视觉说服：什么影响了视觉-语言模型的决策？） [10:32] ⚡ Learning Native Continuation for Action Chunking Flow Policies（学习原生连续性以实现动作分块流策略） [11:19] 🎥 Geometry-Aware Rotary Position Embedding for Consistent Video World Model（面向一致视频世界模型的几何感知旋转位置嵌入） [12:07] 🧠 TAROT: Test-driven and Capability-adaptive Curriculum Reinforcement Fine-tuning for Code Generation with Large Language Models（TAROT：基于测试驱动和能力自适应课程强化微调的大语言模型代码生成方法）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

13分钟

99+

2个月前

2026.02.17 | 查询锚定用户画像；量子原生数据库

HuggingFace 每日AI论文速递

【赞助商】通勤路上就听AI每周谈。AI每周谈，每周带你回顾上周AI大事传送门 🔗https://www.xiaoyuzhoufm.com/podcast/688a34636f5a275f1cba40fd 【目录】本期的 15 篇论文如下： [00:29] 🧠 Query as Anchor: Scenario-Adaptive User Representation via Large Language Model（查询作为锚点：基于大型语言模型的场景自适应用户表征） [01:14] ⚛ Qute: Towards Quantum-Native Database（Qute：迈向量子原生数据库） [01:59] 🧠 InnoEval: On Research Idea Evaluation as a Knowledge-Grounded, Multi-Perspective Reasoning Problem（InnoEval：将研究思想评估视为知识驱动、多视角推理问题） [03:05] 🔍 REDSearcher: A Scalable and Cost-Efficient Framework for Long-Horizon Search Agents（REDSearcher：一种可扩展且经济高效的长视野搜索智能体框架） [03:56] 🚀 BitDance: Scaling Autoregressive Generative Models with Binary Tokens（BitDance：使用二进制令牌扩展自回归生成模型） [04:38] 🧠 Experiential Reinforcement Learning（经验性强化学习） [05:24] 🧠 Embed-RL: Reinforcement Learning for Reasoning-Driven Multimodal Embeddings（Embed-RL：基于强化学习的推理驱动多模态嵌入方法） [06:21] 🧩 UniWeTok: An Unified Binary Tokenizer with Codebook Size $\mathit{2^{128}}$ for Unified Multimodal Large Language Model（UniWeTok：一种用于统一多模态大语言模型的、具有$\mathit{2^{128}}$码本大小的统一二进制分词器） [07:13] 🔍 BrowseComp-$V^3$: A Visual, Vertical, and Verifiable Benchmark for Multimodal Browsing Agents（BrowseComp-V³：面向多模态浏览代理的视觉、垂直与可验证基准） [08:18] 🧠 LaViDa-R1: Advancing Reasoning for Unified Multimodal Diffusion Language Models（LaViDa-R1：推进统一多模态扩散语言模型的推理能力） [09:02] 🗣 Conversational Image Segmentation: Grounding Abstract Concepts with Scalable Supervision（对话式图像分割：通过可扩展监督将抽象概念落地） [10:00] 🧠 Nanbeige4.1-3B: A Small General Model that Reasons, Aligns, and Acts（Nanbeige4.1-3B：一个能够推理、对齐与行动的小型通用模型） [10:49] 🎨 FireRed-Image-Edit-1.0 Techinical Report（FireRed-图像编辑-1.0 技术报告） [11:26] 🧬 Data Darwinism Part I: Unlocking the Value of Scientific Data for Pre-training（数据达尔文主义第一部分：释放科学数据在预训练中的价值） [12:04] 🌐 WebWorld: A Large-Scale World Model for Web Agent Training（WebWorld：用于网络智能体训练的大规模世界模型）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

13分钟

79

2个月前

2026.02.16 | 特征激活补数据；区域蒸馏藏放大

HuggingFace 每日AI论文速递

【赞助商】通勤路上就听AI每周谈。AI每周谈，每周带你回顾上周AI大事传送门 🔗https://www.xiaoyuzhoufm.com/podcast/688a34636f5a275f1cba40fd 【目录】本期的 15 篇论文如下： [00:30] 🧠 Less is Enough: Synthesizing Diverse Data in Feature Space of LLMs（少即是够：在大型语言模型特征空间中合成多样化数据） [01:19] 🔍 Zooming without Zooming: Region-to-Image Distillation for Fine-Grained Multimodal Perception（无需缩放：面向细粒度多模态感知的区域到图像蒸馏） [02:03] 🏥 MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs（MedXIAOHE：构建医疗多模态大语言模型的完整方案） [02:43] 🎯 OneVision-Encoder: Codec-Aligned Sparsity as a Foundational Principle for Multimodal Intelligence（OneVision-编码器：以编解码器对齐的稀疏性作为多模态智能的基础原则） [03:29] 🔬 What does RL improve for Visual Reasoning? A Frankenstein-Style Analysis（强化学习对视觉推理有何改进？一项弗兰肯斯坦式分析） [04:18] 🤖 RLinf-Co: Reinforcement Learning-Based Sim-Real Co-Training for VLA Models（RLinf-Co：基于强化学习的仿真-现实协同训练VLA模型） [05:05] 🤖 ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold Learning（ABot-M0：基于动作流形学习的机器人操作VLA基础模型） [05:53] 🎬 Towards Universal Video MLLMs with Attribute-Structured and Quality-Verified Instructions（迈向具有属性结构和质量验证指令的通用视频多模态大语言模型） [06:55] 🤝 Intelligent AI Delegation（智能AI委托框架） [07:49] 📍 GeoAgent: Learning to Geolocate Everywhere with Reinforced Geographic Characteristics（GeoAgent：通过强化地理特征学习实现无处不在的地理定位） [08:39] ⚙ BPDQ: Bit-Plane Decomposition Quantization on a Variable Grid for Large Language Models（BPDQ：基于可变网格的比特平面分解量化用于大语言模型） [09:37] ⚡ FLAC: Maximum Entropy RL via Kinetic Energy Regularized Bridge Matching（FLAC：通过动能正则化桥匹配实现最大熵强化学习） [10:14] 🔍 On Robustness and Chain-of-Thought Consistency of RL-Finetuned VLMs（关于RL微调视觉语言模型的鲁棒性与思维链一致性研究） [11:03] ⚡ DICE: Diffusion Large Language Models Excel at Generating CUDA Kernels（DICE：扩散大语言模型在生成CUDA内核方面表现出色） [11:48] ⚡ CoPE-VideoLM: Codec Primitives For Efficient Video Language Models（CoPE-VideoLM：面向高效视频语言模型的编解码器原语）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

13分钟

53

2个月前

【周末特辑】2月第3周最火AI论文 | OPUS精准选数据；弱模型反向助攻强模型

HuggingFace 每日AI论文速递

【赞助商】通勤路上就听AI每周谈。AI每周谈，每周带你回顾上周AI大事传送门 🔗https://www.xiaoyuzhoufm.com/podcast/688a34636f5a275f1cba40fd 【目录】本期的 5 篇论文如下： [00:52] TOP1(🔥305) | 🚀 OPUS: Towards Efficient and Principled Data Selection in Large Language Model Pre-training in Every Iteration（OPUS：迈向大规模语言模型预训练中高效且原理化的逐轮数据选择） [02:42] TOP2(🔥250) | 📈 Weak-Driven Learning: How Weak Agents make Strong Agents Stronger（弱驱动学习：弱智能体如何使强智能体更强） [04:59] TOP3(🔥186) | 💻 Code2World: A GUI World Model via Renderable Code Generation（Code2World：通过可渲染代码生成的GUI世界模型） [07:19] TOP4(🔥179) | 📈 QuantaAlpha: An Evolutionary Framework for LLM-Driven Alpha Mining（QuantaAlpha：一种基于大语言模型驱动的阿尔法挖掘进化框架） [10:02] TOP5(🔥172) | ⚡ Step 3.5 Flash: Open Frontier-Level Intelligence with 11B Active Parameters（Step 3.5 Flash：拥有110亿活跃参数的前沿级智能模型）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

12分钟

99+

2个月前

2026.02.13 | 自演化AI难守安全；音频大模型统一token

HuggingFace 每日AI论文速递

【赞助商】通勤路上就听AI每周谈。AI每周谈，每周带你回顾上周AI大事传送门 🔗https://www.xiaoyuzhoufm.com/podcast/688a34636f5a275f1cba40fd 【目录】本期的 15 篇论文如下： [00:31] ⚠ The Devil Behind Moltbook: Anthropic Safety is Always Vanishing in Self-Evolving AI Societies（魔书背后的魔鬼：在自我进化的AI社会中，人类安全价值总是趋于消失） [01:24] 🎵 MOSS-Audio-Tokenizer: Scaling Audio Tokenizers for Future Audio Foundation Models（MOSS-Audio-Tokenizer：为未来音频基础模型扩展音频分词器） [02:28] 🧠 Learning beyond Teacher: Generalized On-Policy Distillation with Reward Extrapolation（超越教师的学习：基于奖励外推的广义策略蒸馏） [03:05] 🤖 GigaBrain-0.5M*: a VLA That Learns From World Model-Based Reinforcement Learning（GigaBrain-0.5M*：一种通过世界模型强化学习训练的视觉-语言-动作模型） [03:56] ⚖ LawThinker: A Deep Research Legal Agent in Dynamic Environments（LawThinker：动态环境中的深度研究法律智能体） [04:33] 🔍 Think Longer to Explore Deeper: Learn to Explore In-Context via Length-Incentivized Reinforcement Learning（思之愈久，探之愈深：通过长度激励强化学习实现上下文内探索） [05:16] 🎨 Stroke of Surprise: Progressive Semantic Illusions in Vector Sketching（惊喜之笔：矢量草图绘制中的渐进式语义错觉） [06:01] 🚀 DeepGen 1.0: A Lightweight Unified Multimodal Model for Advancing Image Generation and Editing（DeepGen 1.0：一个用于推进图像生成与编辑的轻量级统一多模态模型） [06:55] 🧩 Composition-RL: Compose Your Verifiable Prompts for Reinforcement Learning of Large Language Models（Composition-RL：为大型语言模型强化学习组合可验证提示） [07:38] 🧠 Thinking with Drafting: Optical Decompression via Logical Reconstruction（思维与草稿：通过逻辑重构实现光学解压缩） [08:17] 🗳 dVoting: Fast Voting for dLLMs（dVoting：面向扩散大语言模型的快速投票推理方法） [09:09] 🤖 RISE: Self-Improving Robot Policy with Compositional World Model（RISE：基于组合世界模型的机器人策略自改进框架） [09:54] 🤖 $χ_{0}$: Resource-Aware Robust Manipulation via Taming Distributional Inconsistencies（χ₀：通过驯服分布不一致实现资源感知的鲁棒机器人操作） [10:48] 🤖 EgoHumanoid: Unlocking In-the-Wild Loco-Manipulation with Robot-Free Egocentric Demonstration（EgoHumanoid：利用无机器人自我中心演示解锁野外移动操作） [11:45] 🔍 Unveiling Implicit Advantage Symmetry: Why GRPO Struggles with Exploration and Difficulty Adaptation（揭示隐式优势对称性：为何GRPO在探索与难度适应中举步维艰）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

13分钟

72

2个月前

2026.02.12 | 稀疏MoE比肩GPT-5；GENIUS测流体智能

HuggingFace 每日AI论文速递

【赞助商】通勤路上就听AI每周谈。AI每周谈，每周带你回顾上周AI大事传送门 🔗https://www.xiaoyuzhoufm.com/podcast/688a34636f5a275f1cba40fd 【目录】本期的 15 篇论文如下： [00:28] ⚡ Step 3.5 Flash: Open Frontier-Level Intelligence with 11B Active Parameters（Step 3.5 Flash：拥有110亿活跃参数的前沿级智能模型） [01:06] 🧠 GENIUS: Generative Fluid Intelligence Evaluation Suite（GENIUS：生成式流体智能评估套件） [01:46] 🤖 PhyCritic: Multimodal Critic Models for Physical AI（PhyCritic：面向物理人工智能的多模态评判模型） [02:18] ⚙ ASA: Training-Free Representation Engineering for Tool-Calling Agents（ASA：面向工具调用智能体的免训练表征工程） [02:59] 🧠 When to Memorize and When to Stop: Gated Recurrent Memory for Long-Context Reasoning（何时记忆与何时停止：用于长上下文推理的门控循环记忆） [03:38] 🧮 Towards Autonomous Mathematics Research（迈向自主数学研究） [04:15] 🎬 TimeChat-Captioner: Scripting Multi-Scene Videos with Time-Aware and Structural Audio-Visual Captions（TimeChat-Captioner：基于时间感知与结构化音视频描述的多场景视频脚本生成） [05:12] 🧠 G-LNS: Generative Large Neighborhood Search for LLM-Based Automatic Heuristic Design（G-LNS：基于大语言模型的生成式大邻域搜索自动启发式设计） [06:02] ⚙ FeatureBench: Benchmarking Agentic Coding for Complex Feature Development（FeatureBench：面向复杂功能开发的智能体编码基准测试） [06:44] 🧑 DataChef: Cooking Up Optimal Data Recipes for LLM Adaptation via Reinforcement Learning（DataChef：通过强化学习为LLM适应烹饪最优数据配方） [07:28] 🚀 ROCKET: Rapid Optimization via Calibration-guided Knapsack Enhanced Truncation for Efficient Model Compression（ROCKET：基于校准引导的背包增强截断的快速优化，用于高效模型压缩） [08:27] 📈 Online Causal Kalman Filtering for Stable and Effective Policy Optimization（在线因果卡尔曼滤波用于稳定有效的策略优化） [09:24] 🧠 Internalizing Meta-Experience into Memory for Guided Reinforcement Learning in Large Language Models（将元经验内化至记忆以指导大语言模型的强化学习） [10:06] 🗣 Ex-Omni: Enabling 3D Facial Animation Generation for Omni-modal Large Language Models（Ex-Omni：赋能全模态大语言模型生成3D面部动画） [10:47] 🔄 Data Repetition Beats Data Scaling in Long-CoT Supervised Fine-Tuning（在长链思维监督微调中，数据重复优于数据扩展）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

11分钟

99+

2个月前

2026.02.11 | OPUS对齐更新选数据；Code2World代码预演GUI

HuggingFace 每日AI论文速递

【赞助商】通勤路上就听AI每周谈。AI每周谈，每周带你回顾上周AI大事传送门 🔗https://www.xiaoyuzhoufm.com/podcast/688a34636f5a275f1cba40fd 【目录】本期的 15 篇论文如下： [00:33] 🚀 OPUS: Towards Efficient and Principled Data Selection in Large Language Model Pre-training in Every Iteration（OPUS：迈向大规模语言模型预训练中高效且原理化的逐轮数据选择） [01:17] 💻 Code2World: A GUI World Model via Renderable Code Generation（Code2World：通过可渲染代码生成的GUI世界模型） [02:05] 🤖 UI-Venus-1.5 Technical Report（UI-Venus-1.5 技术报告） [02:58] 🧠 Chain of Mindset: Reasoning with Adaptive Cognitive Modes（思维链模式：基于自适应认知模式的推理） [03:52] 🧠 SkillRL: Evolving Agents via Recursive Skill-Augmented Reinforcement Learning（SkillRL：通过递归技能增强强化学习进化智能体） [04:29] 🔬 P1-VL: Bridging Visual Perception and Scientific Reasoning in Physics Olympiads（P1-VL：连接视觉感知与物理奥赛中的科学推理） [05:24] 🤖 Agent World Model: Infinity Synthetic Environments for Agentic Reinforcement Learning（智能体世界模型：面向智能体强化学习的无限合成环境） [05:58] 🔍 Prism: Spectral-Aware Block-Sparse Attention（Prism：基于频谱感知的块稀疏注意力机制） [06:41] ⚡ DLLM-Searcher: Adapting Diffusion Large Language Model for Search Agents（DLLM-Searcher：适配扩散大语言模型用于搜索智能体） [07:23] 🎬 Olaf-World: Orienting Latent Actions for Video World Modeling（Olaf-World：面向视频世界建模的潜在动作定向） [08:18] 🎨 Condition Errors Refinement in Autoregressive Image Generation with Diffusion Loss（基于扩散损失的图像自回归生成中的条件误差优化） [09:09] 🍌 Agent Banana: High-Fidelity Image Editing with Agentic Thinking and Tooling（智能体香蕉：基于智能体思维与工具的高保真图像编辑） [09:50] 🎯 SCALE: Self-uncertainty Conditioned Adaptive Looking and Execution for Vision-Language-Action Models（SCALE：基于自不确定度条件化的自适应视觉感知与执行视觉-语言-动作模型） [10:37] 🤖 BagelVLA: Enhancing Long-Horizon Manipulation via Interleaved Vision-Language-Action Generation（BagelVLA：通过交错式视觉-语言-动作生成增强长视野操作） [11:31] 🎬 TokenTrim: Inference-Time Token Pruning for Autoregressive Long Video Generation（TokenTrim：用于自回归长视频生成的推理时令牌剪枝）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

12分钟

99+

2个月前

2026.02.24 | VBVR百万视频补推理教材；VLANeXt十二配方炼成VLA

2026.02.23 | VESPO防抖离线RL；推理模型学会“点到为止”

【周末特辑】2月第4周最火AI论文 | 少即是够；FAC靶向补特征；噪声基准SQuTR

2026.02.20 | 砍95%注意力画质反升；边压缩边生成FID 1.4

2026.02.19 | 可学习路由+量化加速视频扩散；残差追踪让人形90%抓取

2026.02.18 | GLM-5智能体工程登顶50分；SAE可解释性遭随机基线打脸

2026.02.17 | 查询锚定用户画像；量子原生数据库

2026.02.16 | 特征激活补数据；区域蒸馏藏放大

【周末特辑】2月第3周最火AI论文 | OPUS精准选数据；弱模型反向助攻强模型

2026.02.13 | 自演化AI难守安全；音频大模型统一token

2026.02.12 | 稀疏MoE比肩GPT-5；GENIUS测流体智能

2026.02.11 | OPUS对齐更新选数据；Code2World代码预演GUI

加入我们的 Discord

扫描微信二维码

播放列表

HuggingFace 每日AI论文速递 - 节目列表

2026.02.24 | VBVR百万视频补推理教材；VLANeXt十二配方炼成VLA

2026.02.23 | VESPO防抖离线RL；推理模型学会“点到为止”

【周末特辑】2月第4周最火AI论文 | 少即是够；FAC靶向补特征；噪声基准SQuTR

2026.02.20 | 砍95%注意力画质反升；边压缩边生成FID 1.4

2026.02.19 | 可学习路由+量化加速视频扩散；残差追踪让人形90%抓取

2026.02.18 | GLM-5智能体工程登顶50分；SAE可解释性遭随机基线打脸

2026.02.17 | 查询锚定用户画像；量子原生数据库

2026.02.16 | 特征激活补数据；区域蒸馏藏放大

【周末特辑】2月第3周最火AI论文 | OPUS精准选数据；弱模型反向助攻强模型

2026.02.13 | 自演化AI难守安全；音频大模型统一token

2026.02.12 | 稀疏MoE比肩GPT-5；GENIUS测流体智能

2026.02.11 | OPUS对齐更新选数据；Code2World代码预演GUI

加入我们的 Discord

扫描微信二维码

播放列表