节目列表: HuggingFace 每日AI论文速递 - EarsOnMe

【周末特辑】5月第2周最火AI论文 | MolmoAct2开源机器人大脑；长文狼人杀自练暗规则

【目录】本期的 5 篇论文如下：[00:33] TOP1(🔥266) | 🤖 MolmoAct2: Action Reasoning Models for Real-world Deployment（MolmoAct2：面向实际部署的動作推理模型）[03:10] TOP2(🔥145) | 🧠 From Context to Skills: Can Language Models Learn from Context Skillfully?（从上下文到技能：语言模型能否从上下文中巧妙学习？）[05:03] TOP3(🔥117) | 🎥 Stream-R1: Reliability-Perplexity Aware Reward Distillation for Streaming Video Generation（Stream-R1：面向流式视频生成的可靠性-困惑度感知奖励蒸馏）[07:22] TOP4(🔥101) | 🤖 RLDX-1 Technical Report（RLDX-1技术报告）[09:45] TOP5(🔥99) | 🤖 ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration（自主研究：通过对抗性多智能体协作实现自动化科研）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递在小宇宙查看该单集文稿

12分钟

99+

1个月前

2026.05.08 | 全局速写助长文；技能库让智能体进化

HuggingFace 每日AI论文速递

【目录】本期的 15 篇论文如下：[00:23] 🧠 MiA-Signature: Approximating Global Activation for Long-Context Understanding（MiA-签名：面向长上下文理解的全局激活近似方法）[01:32] 🧬 Skill1: Unified Evolution of Skill-Augmented Agents via Reinforcement Learning（Skill1：通过强化学习实现技能增强型智能体的统一进化）[02:14] 🎯 MARBLE: Multi-Aspect Reward Balance for Diffusion RL（MARBLE：面向扩散强化学习的多维度奖励平衡方法）[03:08] 🤖 When to Trust Imagination: Adaptive Action Execution for World Action Models（何时信任想象力：面向世界动作模型的自适应动作执行）[04:06] 🧠 Continuous Latent Diffusion Language Model（连续潜在扩散语言模型）[04:50] 🏆 RaguTeam at SemEval-2026 Task 8: Meno and Friends in a Judge-Orchestrated LLM Ensemble for Faithful Multi-Turn Response Generation（RaguTeam 在 SemEval-2026 任务8：基于裁判编排的大语言模型集成实现忠实的多轮响应生成）[05:36] 🧠 Nonsense Helps: Prompt Space Perturbation Broadens Reasoning Exploration（无意义文本助力：提示空间扰动拓宽推理探索）[06:13] ⚡ Continuous-Time Distribution Matching for Few-Step Diffusion Distillation（连续时间分布匹配用于少步扩散蒸馏）[06:48] 🎬 Audio-Visual Intelligence in Large Foundation Models（大型基础模型中的音视频智能）[07:24] 🤖 Auto Research with Specialist Agents Develops Effective and Non-Trivial Training Recipes（利用专家智能体进行自动研究，开发高效且非平凡的训练方案）[08:12] 🤖 A$^2$TGPO: Agentic Turn-Group Policy Optimization with Adaptive Turn-level Clipping（A²TGPO：基于自适应回合级裁剪的智能体回合组策略优化）[09:12] 🧩 UniPool: A Globally Shared Expert Pool for Mixture-of-Experts（UniPool：面向混合专家模型的全局共享专家池）[09:58] 🧠 SkillOS: Learning Skill Curation for Self-Evolving Agents（SkillOS：学习技能策展以实现自我进化智能体）[10:49] 🚗 ReflectDrive-2: Reinforcement-Learning-Aligned Self-Editing for Discrete Diffusion Driving（ReflectDrive-2：面向离散扩散驾驶的强化学习对齐自编辑方法）[11:46] 📊 TabEmbed: Benchmarking and Learning Generalist Embeddings for Tabular Understanding（TabEmbed：面向表格理解的通用嵌入模型的基准测试与学习）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递在小宇宙查看该单集文稿

12分钟

99+

1个月前

2026.05.07 | 奖励蒸馏让像素会“挑重点”；测试时扩展逐块稳长视频

HuggingFace 每日AI论文速递

【目录】本期的 15 篇论文如下：[00:24] 🎥 Stream-R1: Reliability-Perplexity Aware Reward Distillation for Streaming Video Generation（Stream-R1：面向流式视频生成的可靠性-困惑度感知奖励蒸馏）[01:27] 🎥 Stream-T1: Test-Time Scaling for Streaming Video Generation（Stream-T1：面向流式视频生成的测试时扩展）[02:06] 🔍 OpenSearch-VL: An Open Recipe for Frontier Multimodal Search Agents（OpenSearch-VL：前沿多模态搜索智能体的开放配方）[03:07] 🤖 RLDX-1 Technical Report（RLDX-1技术报告）[04:06] 🚗 HERMES++: Toward a Unified Driving World Model for 3D Scene Understanding and Generation（HERMES++：迈向统一驾驶世界模型，用于3D场景理解与生成）[04:50] ⚙ PhysForge: Generating Physics-Grounded 3D Assets for Interactive Virtual World（PhysForge：为交互式虚拟世界生成物理基础的3D资产）[05:40] 🎨 D-OPSD: On-Policy Self-Distillation for Continuously Tuning Step-Distilled Diffusion Models（D-OPSD：用于持续调优步蒸馏扩散模型的在策略自蒸馏方法）[06:38] 🔍 Rethinking Reasoning-Intensive Retrieval: Evaluating and Advancing Retrievers in Agentic Search Systems（重新思考推理密集型检索：评估与推进智能体搜索系统中的检索器）[07:46] ⚡ Lightning Unified Video Editing via In-Context Sparse Attention（基于上下文稀疏注意力的闪电式统一视频编辑）[08:38] 🧠 Awaking Spatial Intelligence in Unified Multimodal Understanding and Generation（在多模态统一理解与生成中唤醒空间智能）[09:27] 🎯 Parameter-Efficient Multi-View Proficiency Estimation: From Discriminative Classification to Generative Feedback（参数高效的多视角技能评估：从判别分类到生成式反馈）[10:11] 🎵 APEX: Large-scale Multi-task Aesthetic-Informed Popularity Prediction for AI-Generated Music（APEX：面向AI生成音乐的大规模多任务审美感知流行度预测）[10:54] 🧠 ResRL: Boosting LLM Reasoning via Negative Sample Projection Residual Reinforcement Learning（ResRL：通过负样本投影残差强化学习提升大语言模型推理能力）[11:47] 🧩 Diffusion Model as a Generalist Segmentation Learner（扩散模型作为通用分割学习器）[12:26] 🔬 MedSkillAudit: A Domain-Specific Audit Framework for Medical Research Agent Skills（MedSkillAudit：面向医学研究智能体技能的领域特定审计框架）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递在小宇宙查看该单集文稿

13分钟

99

1个月前

2026.05.06 | ARIS自怼写论文；PRISM三段洗数据再RL

HuggingFace 每日AI论文速递

【目录】本期的 15 篇论文如下：[00:25] 🤖 ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration（自主研究：通过对抗性多智能体协作实现自动化科研）[00:59] 🎯 Beyond SFT-to-RL: Pre-alignment via Black-Box On-Policy Distillation for Multimodal RL（超越SFT到RL：通过黑盒在线策略蒸馏实现多模态强化学习的预对齐）[01:54] 🔍 OpenSeeker-v2: Pushing the Limits of Search Agents with Informative and High-Difficulty Trajectories（OpenSeeker-v2：用信息丰富且高难度的轨迹推动搜索智能体的极限）[02:42] 🎯 X2SAM: Any Segmentation in Images and Videos（X2SAM：图像与视频中的任意分割）[03:23] 🧠 HeavySkill: Heavy Thinking as the Inner Skill in Agentic Harness（HeavySkill：智能体框架中的深度思考作为内在技能）[04:23] 🎬 Video Generation with Predictive Latents（基于预测性潜变量的视频生成）[05:05] 📜 PatRe: A Full-Stage Office Action and Rebuttal Generation Benchmark for Patent Examination（PatRe：面向专利审查的全阶段审查意见与答复生成基准）[05:45] 🎨 SVGS: Enhancing Gaussian Splatting Using Primitives with Spatially Varying Colors（SVGS：利用空间变化颜色基元增强高斯泼溅）[06:31] 📂 Workspace-Bench 1.0: Benchmarking AI Agents on Workspace Tasks with Large-Scale File Dependencies（工作空间基准1.0：针对具有大规模文件依赖的工作空间任务评估AI代理）[07:28] 🤒 SymptomAI: Towards a Conversational AI Agent for Everyday Symptom Assessment（SymptomAI: 面向日常症状评估的对话式AI代理）[08:11] 🤖 Reinforcement Learning for LLM-based Multi-Agent Systems through Orchestration Traces（基于编排轨迹的大语言模型多智能体系统强化学习）[08:44] 🧩 SplAttN: Bridging 2D and 3D with Gaussian Soft Splatting and Attention for Point Cloud Completion（SplAttN：利用高斯软溅射与注意力机制桥接2D和3D的点云补全）[09:39] 🌍 A Benchmark for Interactive World Models with a Unified Action Generation Framework（交互式世界模型基准测试与统一动作生成框架）[10:25] 🔄 The TTS-STT Flywheel: Synthetic Entity-Dense Audio Closes the Indic ASR Gap Where Commercial and Open-Source Systems Fail（TTS-STT飞轮：合成密集实体音频填补了商业和开源系统失败的印地语ASR差距）[11:12] 💬 TCDA: Thread-Constrained Discourse-Aware Modeling for Conversational Sentiment Quadruple Analysis（TCDA：线程约束的对话感知建模用于对话情感四元组分析）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递在小宇宙查看该单集文稿

12分钟

99+

1个月前

2026.05.05 | 开源MolmoAct2实战87%成功率；GPT上下文提炼技能再升级

HuggingFace 每日AI论文速递

【目录】本期的 14 篇论文如下：[00:21] 🤖 MolmoAct2: Action Reasoning Models for Real-world Deployment（MolmoAct2：面向实际部署的動作推理模型）[01:02] 🧠 From Context to Skills: Can Language Models Learn from Context Skillfully?（从上下文到技能：语言模型能否从上下文中巧妙学习？）[01:44] 🔁 Repetition over Diversity: High-Signal Data Filtering for Sample-Efficient German Language Modeling（重复胜于多样：面向样本高效德语语言模型的高信号数据过滤）[02:35] 👁 Persistent Visual Memory: Sustaining Perception for Deep Generation in LVLMs（持久视觉记忆：在大视觉语言模型中维持感知以支持深度生成）[03:18] 🌊 OceanPile: A Large-Scale Multimodal Ocean Corpus for Foundation Models（海洋堆：面向基础模型的大规模多模态海洋语料库）[03:56] 🧩 ComboStoc: Combinatorial Stochasticity for Diffusion Generative Models（ComboStoc：扩散生成模型的组合随机性）[04:44] 🎓 AcademiClaw: When Students Set Challenges for AI Agents（AcademiClaw：当学生为AI代理设置挑战时）[05:25] 🏥 PhysicianBench: Evaluating LLM Agents in Real-World EHR Environments（医师基准：在真实电子健康记录环境中评估大语言模型智能体）[06:06] 🤖 T$^2$PO: Uncertainty-Guided Exploration Control for Stable Multi-Turn Agentic Reinforcement Learning（T²PO：不确定性引导的探索控制实现稳定多轮智能体强化学习）[07:04] 🌳 Hierarchical Abstract Tree for Cross-Document Retrieval-Augmented Generation（面向跨文档检索增强生成的分层抽象树）[07:54] 🌌 Generative Modeling with Orbit-Space Particle Flow Matching（基于轨道空间粒子流匹配的生成式建模）[08:30] 🧠 Perceptual Flow Network for Visually Grounded Reasoning（感知流网络用于视觉基础推理）[09:06] 🎬 Motion-Aware Caching for Efficient Autoregressive Video Generation（运动感知缓存实现高效自回归视频生成）[09:54] 🤖 Code World Model Preparedness Report（代码世界模型准备情况报告）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递在小宇宙查看该单集文稿

11分钟

99+

1个月前

【月末特辑】4月最火AI论文 | GrandCode登顶Codeforces；高频Prompt提效大模型

HuggingFace 每日AI论文速递

【目录】本期的 10 篇论文如下：[00:47] TOP1(🔥626) | 🏆 GrandCode: Achieving Grandmaster Level in Competitive Programming via Agentic Reinforcement Learning（GrandCode：通过智能体强化学习在竞技编程中达到宗师级水平）[02:41] TOP2(🔥501) | 📈 Adam's Law: Textual Frequency Law on Large Language Models（亚当定律：大语言模型上的文本频率定律）[04:54] TOP3(🔥364) | 🔄 DataFlex: A Unified Framework for Data-Centric Dynamic Training of Large Language Models（DataFlex：面向大语言模型数据中心化动态训练的统一框架）[07:02] TOP4(🔥350) | 🧠 FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization（FIPO：通过未来KL影响策略优化引导深度推理）[08:57] TOP5(🔥341) | 🚁 CARLA-Air: Fly Drones Inside a CARLA World -- A Unified Infrastructure for Air-Ground Embodied Intelligence（CARLA-Air：在CARLA世界中飞行无人机——面向空地具身智能的统一基础设施）[11:14] TOP6(🔥323) | 🧠 Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability（重新审视推理监督微调中的泛化问题：关于优化、数据与模型能力的条件性分析）[13:08] TOP7(🔥289) | 🧬 SkillClaw: Let Skills Evolve Collectively with Agentic Evolver（SkillClaw：让技能在智能体演化器中集体进化）[15:08] TOP8(🔥261) | 🤖 ClawBench: Can AI Agents Complete Everyday Online Tasks?（ClawBench：AI智能体能否完成日常在线任务？）[16:40] TOP9(🔥252) | 🔄 Recursive Multi-Agent Systems（递归多智能体系统）[18:31] TOP10(🔥249) | 👗 Tstars-Tryon 1.0: Robust and Realistic Virtual Try-On for Diverse Fashion Items（Tstars-Tryon 1.0：面向多样化时尚商品的鲁棒且逼真的虚拟试穿系统）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递在小宇宙查看该单集文稿

21分钟

99+

1个月前

2026.05.04 | 统一扩散框架十五合一；多智能体搜索碾压单兵

HuggingFace 每日AI论文速递

【目录】本期的 15 篇论文如下：[00:23] 🎥 UniVidX: A Unified Multimodal Framework for Versatile Video Generation via Diffusion Priors（UniVidX：一种基于扩散先验的统一多模态框架用于多功能视频生成）[01:20] 🕸 Web2BigTable: A Bi-Level Multi-Agent LLM System for Internet-Scale Information Search and Extraction（Web2BigTable：一种用于互联网规模信息搜索与提取的双层多智能体大语言模型系统）[02:11] 🌍 Map2World: Segment Map Conditioned Text to 3D World Generation（Map2World：基于分割地图条件文本到3D世界生成）[03:05] 🤖 Learning while Deploying: Fleet-Scale Reinforcement Learning for Generalist Robot Policies（边部署边学习：面向通用机器人策略的车队级强化学习）[03:46] 🧩 From Skill Text to Skill Structure: The Scheduling-Structural-Logical Representation for Agent Skills（从技能文本到技能结构：面向智能体技能的调度-结构-逻辑表示）[04:39] 🎨 Let ViT Speak: Generative Language-Image Pre-training（让ViT说话：生成式语言-图像预训练）[05:21] 🧩 When Do Diffusion Models learn to Generate Multiple Objects?（扩散模型何时学会生成多个物体？）[06:14] 🌳 Trees to Flows and Back: Unifying Decision Trees and Diffusion Models（从树到流再回归：统一决策树与扩散模型）[07:14] 🖼 End-to-End Autoregressive Image Generation with 1D Semantic Tokenizer（端到端自回归图像生成与一维语义分词器）[08:09] 🔍 Online Self-Calibration Against Hallucination in Vision-Language Models（视觉语言模型中针对幻觉的在线自校准方法）[08:49] 🤖 Learning to Act and Cooperate for Distributed Black-Box Consensus Optimization（学习行动与合作：面向分布式黑箱共识优化的自设计方法）[09:34] 🗣 LASE: Language-Adversarial Speaker Encoding for Indic Cross-Script Identity Preservation（LASE：面向印度跨文字身份保持的语言对抗性说话人编码）[10:34] 🎤 Talker-T2AV: Joint Talking Audio-Video Generation with Autoregressive Diffusion Modeling（Talker-T2AV：基于自回归扩散建模的联合语音-视频生成）[11:32] 🔌 AnalogRetriever: Learning Cross-Modal Representations for Analog Circuit Retrieval（模拟电路检索器：学习用于模拟电路检索的跨模态表示）[12:19] 🏆 Themis: Training Robust Multilingual Code Reward Models for Flexible Multi-Criteria Scoring（Themis：训练鲁棒的多语言代码奖励模型以实现灵活的多标准评分）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递在小宇宙查看该单集文稿

13分钟

80

1个月前

【周末特辑】5月第1周最火AI论文 | 潜空间套娃提分快；世界模型分级演化

HuggingFace 每日AI论文速递

【目录】本期的 5 篇论文如下：[00:35] TOP1(🔥241) | 🔄 Recursive Multi-Agent Systems（递归多智能体系统）[02:34] TOP2(🔥219) | 🌍 Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond（智能体世界建模：基础、能力、法则及其超越）[04:45] TOP3(🔥188) | 🧠 Heterogeneous Scientific Foundation Model Collaboration（异构科学基础模型协作）[06:31] TOP4(🔥116) | 🏢 From Skills to Talent: Organising Heterogeneous Agents as a Real-World Company（从技能到人才：将异构智能体组织为现实世界公司）[08:19] TOP5(🔥115) | 🌍 World-R1: Reinforcing 3D Constraints for Text-to-Video Generation（世界-R1：通过强化学习为文本到视频生成注入3D约束）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递在小宇宙查看该单集文稿

10分钟

99+

1个月前

2026.05.01 | Eywa让LLM牵手领域模型提效30%；视觉生成五级跃迁仍卡第三关

HuggingFace 每日AI论文速递

【目录】本期的 15 篇论文如下：[00:25] 🧠 Heterogeneous Scientific Foundation Model Collaboration（异构科学基础模型协作）[01:24] 🌍 Visual Generation in the New Era: An Evolution from Atomic Mapping to Agentic World Modeling（新时代的视觉生成：从原子映射到智能体世界建模的演进）[02:04] 🧬 Co-Evolving Policy Distillation（共同演化策略蒸馏）[02:47] 🤖 ExoActor: Exocentric Video Generation as Generalizable Interactive Humanoid Control（ExoActor：外视点视频生成作为可泛化的交互式人形机器人控制）[03:38] 🚀 Efficient Training on Multiple Consumer GPUs with RoundPipe（在多块消费级GPU上使用RoundPipe进行高效训练）[04:17] 🧠 Claw-Eval-Live: A Live Agent Benchmark for Evolving Real-World Workflows（Claw-Eval-Live：一个面向不断演变的真实世界工作流的实时智能体基准测试）[05:08] 🎨 Leveraging Verifier-Based Reinforcement Learning in Image Editing（利用基于验证器的强化学习进行图像编辑）[06:18] 📏 Length Value Model: Scalable Value Pretraining for Token-Level Length Modeling（长度价值模型：面向令牌级长度建模的可扩展价值预训练）[07:15] 🔬 Intern-Atlas: A Methodological Evolution Graph as Research Infrastructure for AI Scientists（Intern-Atlas：作为AI科学家研究基础设施的方法演化图）[08:31] 🌐 InteractWeb-Bench: Can Multimodal Agent Escape Blind Execution in Interactive Website Generation?（InteractWeb-Bench：多模态智能体能否在交互式网站生成中摆脱盲目执行？）[09:15] 🎨 Representation Fréchet Loss for Visual Generation（用于视觉生成的表示空间弗雷歇损失）[10:05] 🖥 Synthetic Computers at Scale for Long-Horizon Productivity Simulation（面向长周期生产力模拟的大规模合成计算机）[10:52] 🧠 Compliance versus Sensibility: On the Reasoning Controllability in Large Language Models（合规性与敏感性：大型语言模型中的推理可控性研究）[11:25] 🤖 The Last Human-Written Paper: Agent-Native Research Artifacts（最后一篇人类撰写的论文：智能体原生研究工件）[12:14] 💃 MoCapAnything V2: End-to-End Motion Capture for Arbitrary Skeletons（MoCapAnything V2：面向任意骨骼的端到端动作捕捉）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递在小宇宙查看该单集文稿

13分钟

99+

1个月前

2026.04.30 | GLM-5V一锅端训多模态；潜在蒸馏采样省样本

HuggingFace 每日AI论文速递

【目录】本期的 11 篇论文如下：[00:22] 🤖 GLM-5V-Turbo: Toward a Native Foundation Model for Multimodal Agents（GLM-5V-Turbo：迈向多模态智能体的原生基础模型）[01:26] 🔬 Large Language Models Explore by Latent Distilling（大型语言模型通过潜在蒸馏进行探索）[02:16] 🌊 Turning the TIDE: Cross-Architecture Distillation for Diffusion Large Language Models（扭转潮流：面向扩散大语言模型的跨架构蒸馏）[03:02] 🦾 ClawGym: A Scalable Framework for Building Effective Claw Agents（ClawGym：一个构建高效Claw智能体的可扩展框架）[03:49] 🤖 RADIO-ViPE: Online Tightly Coupled Multi-Modal Fusion for Open-Vocabulary Semantic SLAM in Dynamic Environments（RADIO-ViPE：面向动态环境中开放词汇语义SLAM的在线紧耦合多模态融合）[04:35] 🧩 Diffusion Templates: A Unified Plugin Framework for Controllable Diffusion（扩散模板：一种用于可控扩散的统一插件框架）[05:20] 🚀 Accelerating RL Post-Training Rollouts via System-Integrated Speculative Decoding（通过系统集成的推测解码加速强化学习后训练中的自回归生成）[06:08] 🌍 Unified 4D World Action Modeling from Video Priors with Asynchronous Denoising（基于异步去噪的视频先验的统一4D世界动作建模）[07:02] 💬 A Survey on LLM-based Conversational User Simulation（基于大语言模型的对话式用户模拟综述）[07:55] 👗 FASH-iCNN: Making Editorial Fashion Identity Inspectable Through Multimodal CNN Probing（FASH-iCNN：通过多模态CNN探针使时尚编辑身份可审查）[08:43] 🧩 Probing Visual Planning in Image Editing Models（探究图像编辑模型中的视觉规划能力）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递在小宇宙查看该单集文稿

9分钟

98

1个月前

2026.04.29 | 递归多智能体套娃提速；数据编程Git式自改进

HuggingFace 每日AI论文速递

【目录】本期的 15 篇论文如下：[00:25] 🔄 Recursive Multi-Agent Systems（递归多智能体系统）[01:01] 🔧 Programming with Data: Test-Driven Data Engineering for Self-Improving LLMs from Raw Corpora（数据编程：面向自改进大语言模型从原始语料库进行测试驱动数据工程）[01:55] 📊 DV-World: Benchmarking Data Visualization Agents in Real-World Scenarios（DV-World：在真实世界场景中评估数据可视化智能体的基准）[02:36] 🔬 AutoResearchBench: Benchmarking AI Agents on Complex Scientific Literature Discovery（AutoResearchBench：基于复杂科学文献发现的AI智能体基准测试）[03:23] 🖼 Meta-CoT: Enhancing Granularity and Generalization in Image Editing（元链式思维：增强图像编辑的粒度与泛化能力）[04:07] 🎨 Refinement via Regeneration: Enlarging Modification Space Boosts Image Refinement in Unified Multimodal Models（通过重生成进行精炼：扩大修改空间提升统一多模态模型中的图像精炼效果）[05:03] 🎥 Mutual Forcing: Dual-Mode Self-Evolution for Fast Autoregressive Audio-Video Character Generation（相互强迫：用于快速自回归音视频角色生成的双模式自演化）[05:46] 🎧 Step-Audio-R1.5 Technical Report（Step-Audio-R1.5 技术报告）[06:26] 🎬 Co-Director: Agentic Generative Video Storytelling（联合导演：基于智能体的生成式视频故事讲述）[07:13] 🖥 Toward Scalable Terminal Task Synthesis via Skill Graphs（面向可扩展终端任务合成的技能图方法）[07:57] 🎓 TCOD: Exploring Temporal Curriculum in On-Policy Distillation for Multi-turn Autonomous Agents（TCOD：面向多轮自主智能体的在策略蒸馏中的时序课程探索）[08:53] 🛡 BARRED: Synthetic Training of Custom Policy Guardrails via Asymmetric Debate（BARRED：通过非对称辩论进行自定义策略护栏的合成训练）[09:36] 🎓 MAIC-UI: Making Interactive Courseware with Generative UI（MAIC-UI：利用生成式用户界面制作交互式课件）[10:35] 🎨 V-GRPO: Online Reinforcement Learning for Denoising Generative Models Is Easier than You Think（V-GRPO：去噪生成模型的在线强化学习比你想象的要简单）[11:15] 🏃 IAM: Identity-Aware Human Motion and Shape Joint Generation（身份感知的人体运动与形状联合生成）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递在小宇宙查看该单集文稿

12分钟

99+

1个月前

2026.04.28 | 强化学习逼出几何一致视频；AI公司乐高式组队降本提效

HuggingFace 每日AI论文速递

【目录】本期的 15 篇论文如下：[00:24] 🌍 World-R1: Reinforcing 3D Constraints for Text-to-Video Generation（世界-R1：通过强化学习为文本到视频生成注入3D约束）[01:29] 🏢 From Skills to Talent: Organising Heterogeneous Agents as a Real-World Company（从技能到人才：将异构智能体组织为现实世界公司）[02:26] 🧠 ReVSI: Rebuilding Visual Spatial Intelligence Evaluation for Accurate Assessment of VLM 3D Reasoning（重建视觉空间智能评估：精准评估VLM三维推理能力）[03:23] 🛡 Vision-Language-Action Safety: Threats, Challenges, Evaluations, and Mechanisms（视觉-语言-动作安全：威胁、挑战、评估与机制）[04:12] 🖼 Tuna-2: Pixel Embeddings Beat Vision Encoders for Multimodal Understanding and Generation（Tuna-2：像素嵌入在多模态理解与生成中击败视觉编码器）[05:02] 🤖 ClawMark: A Living-World Benchmark for Multi-Turn, Multi-Day, Multimodal Coworker Agents（ClawMark：面向多轮、多日、多模态协作者智能体的现实世界基准测试）[06:20] ✍ SketchVLM: Vision language models can annotate images to explain thoughts and guide users（SketchVLM：视觉语言模型可以通过图像标注来解释思维并引导用户）[07:17] 🔬 Rewarding the Scientific Process: Process-Level Reward Modeling for Agentic Data Analysis（奖励科学过程：面向智能体数据分析的过程级奖励建模）[08:24] ⚖ Taming Actor-Observer Asymmetry in Agents via Dialectical Alignment（通过辩证对齐驯服智能体中的行动者-观察者不对称性）[09:20] 🔀 Efficient Agent Evaluation via Diversity-Guided User Simulation（通过多样性引导的用户模拟实现高效智能体评估）[10:02] ⚡ For-Value: Efficient Forward-Only Data Valuation for finetuning LLMs and VLMs（For-Value：面向微调大语言模型和视觉语言模型的高效前向数据估值方法）[11:04] 🎬 OmniShotCut: Holistic Relational Shot Boundary Detection with Shot-Query Transformer（全镜头剪切：基于镜头查询Transformer的整体关系型镜头边界检测）[12:03] 📷 UniGeo: Unifying Geometric Guidance for Camera-Controllable Image Editing via Video Models（UniGeo：通过视频模型实现相机可控图像编辑的统一几何引导）[12:49] 📄 TexOCR: Advancing Document OCR Models for Compilable Page-to-LaTeX Reconstruction（TexOCR：面向可编译页面到LaTeX重建的文档OCR模型进展）[13:56] 🔄 How Much Is One Recurrence Worth? Iso-Depth Scaling Laws for Looped Language Models（一次循环值多少？循环语言模型的等深度缩放定律）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递在小宇宙查看该单集文稿

15分钟

99+

1个月前

【周末特辑】5月第2周最火AI论文 | MolmoAct2开源机器人大脑；长文狼人杀自练暗规则

2026.05.08 | 全局速写助长文；技能库让智能体进化

2026.05.07 | 奖励蒸馏让像素会“挑重点”；测试时扩展逐块稳长视频

2026.05.06 | ARIS自怼写论文；PRISM三段洗数据再RL

2026.05.05 | 开源MolmoAct2实战87%成功率；GPT上下文提炼技能再升级

【月末特辑】4月最火AI论文 | GrandCode登顶Codeforces；高频Prompt提效大模型

2026.05.04 | 统一扩散框架十五合一；多智能体搜索碾压单兵

【周末特辑】5月第1周最火AI论文 | 潜空间套娃提分快；世界模型分级演化

2026.05.01 | Eywa让LLM牵手领域模型提效30%；视觉生成五级跃迁仍卡第三关

2026.04.30 | GLM-5V一锅端训多模态；潜在蒸馏采样省样本

2026.04.29 | 递归多智能体套娃提速；数据编程Git式自改进

2026.04.28 | 强化学习逼出几何一致视频；AI公司乐高式组队降本提效

加入我们的 Discord

扫描微信二维码

播放列表

HuggingFace 每日AI论文速递 - 节目列表

【周末特辑】5月第2周最火AI论文 | MolmoAct2开源机器人大脑；长文狼人杀自练暗规则

2026.05.08 | 全局速写助长文；技能库让智能体进化

2026.05.07 | 奖励蒸馏让像素会“挑重点”；测试时扩展逐块稳长视频

2026.05.06 | ARIS自怼写论文；PRISM三段洗数据再RL

2026.05.05 | 开源MolmoAct2实战87%成功率；GPT上下文提炼技能再升级

【月末特辑】4月最火AI论文 | GrandCode登顶Codeforces；高频Prompt提效大模型

2026.05.04 | 统一扩散框架十五合一；多智能体搜索碾压单兵

【周末特辑】5月第1周最火AI论文 | 潜空间套娃提分快；世界模型分级演化

2026.05.01 | Eywa让LLM牵手领域模型提效30%；视觉生成五级跃迁仍卡第三关

2026.04.30 | GLM-5V一锅端训多模态；潜在蒸馏采样省样本

2026.04.29 | 递归多智能体套娃提速；数据编程Git式自改进

2026.04.28 | 强化学习逼出几何一致视频；AI公司乐高式组队降本提效

加入我们的 Discord

扫描微信二维码

播放列表