节目列表: HuggingFace 每日AI论文速递 - EarsOnMe

【周末特辑】11月第1周最火AI论文 | 循环模型省参强推理；Concerto 2D-3D自监督涨点

本期的 5 篇论文如下：[00:35] TOP1(🔥174) | 🔄 Scaling Latent Reasoning via Looped Language Models（通过循环语言模型扩展潜在推理能力）[02:30] TOP2(🔥166) | 🎼 Concerto: Joint 2D-3D Self-Supervised Learning Emerges Spatial Representations（Concerto：2D-3D联合自监督学习涌现空间表征）[05:17] TOP3(🔥115) | 🧩 ReCode: Unify Plan and Action for Universal Granularity Control（ReCode：用递归代码统一规划与行动，实现通用粒度控制）[07:02] TOP4(🔥94) | 🗣 InteractComp: Evaluating Search Agents With Ambiguous Queries（InteractComp：用含混查询检验搜索智能体的交互能力）[09:14] TOP5(🔥90) | 🧠 DeepAgent: A General Reasoning Agent with Scalable Toolsets（DeepAgent：具备可扩展工具集的通用推理智能体）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递在小宇宙查看该单集文稿

11分钟

99+

7个月前

2025.10.31 | Emu3.5统一预测时空；扩散提示驱动机器人

HuggingFace 每日AI论文速递

本期的 15 篇论文如下：[00:26] 🌍 Emu3.5: Native Multimodal Models are World Learners（Emu3.5：原生多模态世界模型让AI看懂并预测未来）[01:04] 🤖 Exploring Conditions for Diffusion models in Robotic Control（探索扩散模型在机器人控制中的条件化策略）[01:42] 🎬 Are Video Models Ready as Zero-Shot Reasoners? An Empirical Study with the MME-CoF Benchmark（视频模型已准备好做零样本推理了吗？基于MME-CoF基准的实证研究）[02:22] ⚡ Kimi Linear: An Expressive, Efficient Attention Architecture（Kimi线性：一种富有表现力的高效注意力架构）[02:55] 🧮 AMO-Bench: Large Language Models Still Struggle in High School Math Competitions（AMO-Bench：大语言模型在高中数学奥赛级难题前仍举步维艰）[03:35] 🕺 The Quest for Generalizable Motion Generation: Data, Model, and Evaluation（可泛化动作生成之路：数据、模型与评测）[04:17] 🌐 Surfer 2: The Next Generation of Cross-Platform Computer Use Agents（Surfer 2：下一代跨平台计算机使用智能体）[04:42] 🌍 OmniX: From Unified Panoramic Generation and Perception to Graphics-Ready 3D Scenes（OmniX：从统一全景生成与感知到可渲染3D场景）[05:21] 🤝 The Era of Agentic Organization: Learning to Organize with Language Models（智能体组织时代：用语言模型学会协同）[05:57] 🧠 Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning（监督式强化学习：从专家轨迹到逐步推理）[06:32] 🕹 Can Agent Conquer Web? Exploring the Frontiers of ChatGPT Atlas Agent in Web Games（智能体能征服网络吗？探索 ChatGPT Atlas 在网络游戏中的能力边界）[07:10] 🏥 EHR-R1: A Reasoning-Enhanced Foundational Language Model for Electronic Health Record Analysis（EHR-R1：面向电子健康记录分析的推理增强型基础语言模型）[07:55] 📄 OmniLayout: Enabling Coarse-to-Fine Learning with LLMs for Universal Document Layout Generation（OmniLayout：基于LLM的粗到细通用文档版面生成）[08:38] 🎯 MIRO: MultI-Reward cOnditioned pretraining improves T2I quality and efficiency（MIRO：多奖励条件预训练提升文本到图像生成质量与效率）[09:09] 🤖 Magentic Marketplace: An Open-Source Environment for Studying Agentic Markets（Magentic市集：一个用于研究智能代理市场的开源环境）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递在小宇宙查看该单集文稿

10分钟

99+

7个月前

2025.10.30 | 看图写码7B逆袭；视频思维RL破局

HuggingFace 每日AI论文速递

本期的 15 篇论文如下：[00:22] 👁 JanusCoder: Towards a Foundational Visual-Programmatic Interface for Code Intelligence（JanusCoder：面向代码智能的基础视觉-编程接口）[01:00] 🧠 Video-Thinker: Sparking "Thinking with Videos" via Reinforcement Learning（Video-Thinker：用强化学习点燃“视频思维”）[01:55] 🔄 ReForm: Reflective Autoformalization with Prospective Bounded Sequence Optimization（ReForm：基于前瞻性有界序列优化的反思式自动化形式化）[02:42] 🔄 Scaling Latent Reasoning via Looped Language Models（通过循环语言模型扩展潜在推理能力）[03:22] 🧠 Reasoning-Aware GRPO using Process Mining（基于过程挖掘的推理感知GRPO方法）[03:52] 🎬 VFXMaster: Unlocking Dynamic Visual Effect Generation via In-Context Learning（VFXMaster：通过上下文学习解锁动态视觉特效生成）[04:33] 🏆 The Tool Decathlon: Benchmarking Language Agents for Diverse, Realistic, and Long-Horizon Task Execution（工具十项全能：面向多样、真实、长周期任务的语言智能体基准测试）[05:11] 🖼 RegionE: Adaptive Region-Aware Generation for Efficient Image Editing（RegionE：面向高效图像编辑的自适应区域感知生成）[06:22] 🎮 ChronoPlay: A Framework for Modeling Dual Dynamics and Authenticity in Game RAG Benchmarks（ChronoPlay：面向游戏RAG评测的双动态与真实性建模框架）[06:58] 🧭 Multimodal Spatial Reasoning in the Large Model Era: A Survey and Benchmarks（大模型时代的多模态空间推理：综述与基准）[07:44] 🔗 PairUni: Pairwise Training for Unified Multimodal Language Models（PairUni：面向统一多模态语言模型的成对训练）[08:33] ⚡ Parallel Loop Transformer for Efficient Test-Time Computation Scaling（并行循环Transformer：零延迟的测试时计算扩展）[09:08] 🚗 Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks（重新审视驾驶世界模型：面向感知任务的合成数据生成器）[09:55] 🧬 ODesign: A World Model for Biomolecular Interaction Design（ODesign：面向生物分子相互作用设计的全原子生成式世界模型）[10:31] 🧬 Evolving Diagnostic Agents in a Virtual Clinical Environment（虚拟临床环境中进化诊断智能体）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递在小宇宙查看该单集文稿

11分钟

96

7个月前

2025.10.29 | 通义深度研究报告；小模型折记忆胜671B巨模型

HuggingFace 每日AI论文速递

本期的 10 篇论文如下：[00:23] 🔍 Tongyi DeepResearch Technical Report（通义深度研究报告：面向长程深度信息检索任务的智能体大模型）[01:00] 🧠 AgentFold: Long-Horizon Web Agents with Proactive Context Management（AgentFold：面向长程任务的主动式上下文管理智能体）[01:36] 🤖 RoboOmni: Proactive Robot Manipulation in Omni-modal Context（RoboOmni：全模态上下文下的主动机器人操作）[02:33] 🎮 Game-TARS: Pretrained Foundation Models for Scalable Generalist Multimodal Game Agents（Game-TARS：面向可扩展通才多模态游戏智能体的预训练基础模型）[03:05] 🎬 Uniform Discrete Diffusion with Metric Path for Video Generation（面向视频生成的度量路径均匀离散扩散模型）[03:42] 🛠 OSWorld-MCP: Benchmarking MCP Tool Invocation In Computer-Use Agents（OSWorld-MCP：评测计算机代理调用MCP工具能力的基准）[04:28] 🎨 Group Relative Attention Guidance for Image Editing（基于群组相对注意力引导的图像编辑方法）[05:14] 🚀 WebLeaper: Empowering Efficiency and Efficacy in WebAgent via Enabling Info-Rich Seeking（WebLeaper：通过富信息搜索赋能网络智能体效率与效能）[06:04] 🧭 Routing Matters in MoE: Scaling Diffusion Transformers with Explicit Routing Guidance（MoE路由关乎成败：显式路由引导扩散Transformer扩容）[07:01] 🧠 ParallelMuse: Agentic Parallel Thinking for Deep Information Seeking（并行缪斯：面向深度信息搜寻的主体化并行思考）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递在小宇宙查看该单集文稿

8分钟

99+

7个月前

2025.10.28 | Point Transformer无标对齐长空间；代码递归统一粗细粒度

HuggingFace 每日AI论文速递

本期的 15 篇论文如下：[00:23] 🎼 Concerto: Joint 2D-3D Self-Supervised Learning Emerges Spatial Representations（Concerto：2D-3D联合自监督学习涌现空间表征）[01:06] 🧩 ReCode: Unify Plan and Action for Universal Granularity Control（ReCode：用递归代码统一规划与行动，实现通用粒度控制）[01:44] 🤖 A Survey of Data Agents: Emerging Paradigm or Overstated Hype?（数据智能体全景透视：新范式还是泡沫？）[02:23] 🌾 FARMER: Flow AutoRegressive Transformer over Pixels（基于像素流自回归变换器的可逆生成模型）[03:07] 🤖 VITA-E: Natural Embodied Interaction with Concurrent Seeing, Hearing, Speaking, and Acting（VITA-E：能同时看、听、说、做的自然具身交互框架）[03:45] 🎭 Lookahead Anchoring: Preserving Character Identity in Audio-Driven Human Animation（前瞻锚定：在音频驱动人体动画中保持角色身份）[04:17] 🤖 ACG: Action Coherence Guidance for Flow-based VLA models（面向流式VLA模型的动作连贯性引导）[04:56] 🔍 $\text{E}^2\text{Rank}$: Your Text Embedding can Also be an Effective and Efficient Listwise Reranker（E²Rank：你的文本嵌入也能成为高效列表级重排器）[05:40] 🌐 Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences（全模态奖励模型：用自由格式偏好迈向通用奖励建模）[06:30] 🔍 PixelRefer: A Unified Framework for Spatio-Temporal Object Referring with Arbitrary Granularity（PixelRefer：任意粒度时空目标指代的统一框架）[07:06] 🧠 Knocking-Heads Attention（敲头注意力：让多头彼此“敲一敲”）[07:42] 🧩 IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction（IGGT：面向语义三维重建的实例锚定几何Transformer）[08:30] 🎯 The Best of N Worlds: Aligning Reinforcement Learning with Best-of-N Sampling via max@k Optimisation（多选一最优：用max@k优化将强化学习与Best-of-N采样对齐）[09:14] 🥯 LightBagel: A Light-weighted, Double Fusion Framework for Unified Multimodal Understanding and Generation（LightBagel：面向统一多模态理解与生成的轻量级双重融合框架）[09:51] 🧠 LimRank: Less is More for Reasoning-Intensive Information Reranking（LimRank：少即是多的推理密集型信息重排序）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递在小宇宙查看该单集文稿

11分钟

84

7个月前

2025.10.27 | DeepAgent一步推理+ToolPO；视频即提示DiT秒控百种语义

HuggingFace 每日AI论文速递

本期的 15 篇论文如下：[00:27] 🧠 DeepAgent: A General Reasoning Agent with Scalable Toolsets（DeepAgent：具备可扩展工具集的通用推理智能体）[01:01] 🎬 Video-As-Prompt: Unified Semantic Control for Video Generation（视频即提示：统一语义控制的视频生成新范式）[01:35] 🔧 From Denoising to Refining: A Corrective Framework for Vision-Language Diffusion Model（从去噪到精修：视觉-语言扩散模型的纠错式生成框架）[02:14] 🧩 Sample By Step, Optimize By Chunk: Chunk-Level GRPO For Text-to-Image Generation（逐段采样、分块优化：面向文本到图像生成的块级GRPO方法）[02:51] 🧠 A Definition of AGI（AGI的量化定义）[03:23] 🧩 Sparser Block-Sparse Attention via Token Permutation（基于Token置换的稀疏块稀疏注意力机制）[04:14] 🧭 UI-Ins: Enhancing GUI Grounding with Multi-Perspective Instruction-as-Reasoning（UI-Ins：以“指令即推理”多视角增强GUI定位）[04:57] 🧠 Reasoning with Sampling: Your Base Model is Smarter Than You Think（基于采样的推理：你的基础模型比你想象的更聪明）[05:30] 🧠 RECALL: REpresentation-aligned Catastrophic-forgetting ALLeviation via Hierarchical Model Merging（RECALL：基于表示对齐的层级模型融合缓解大模型灾难性遗忘）[06:08] 📐 Visual Diffusion Models are Geometric Solvers（视觉扩散模型是几何求解器）[06:56] 🌍 WorldGrow: Generating Infinite 3D World（无限3D世界生成：WorldGrow）[07:35] 🎬 RAPO++: Cross-Stage Prompt Optimization for Text-to-Video Generation via Data Alignment and Test-Time Scaling（RAPO++：面向文生视频的跨阶段提示优化——数据对齐与测试时缩放）[08:14] 🔗 Model Merging with Functional Dual Anchors（基于功能双锚点的模型融合方法）[08:49] 🧭 Map the Flow: Revealing Hidden Pathways of Information in VideoLLMs（揭示VideoLLM隐藏信息通路：视频语言模型内部流动图谱）[09:34] 📊 Document Understanding, Measurement, and Manipulation Using Category Theory（基于范畴论的文档理解、度量与操控）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递在小宇宙查看该单集文稿

10分钟

99+

7个月前

【周末特辑】10月第4周最火AI论文 | 内部概率+投票剪尾，RPC省样本提精度

HuggingFace 每日AI论文速递

本期的 5 篇论文如下：[00:29] TOP1(🔥135) | 🧠 A Theoretical Study on Bridging Internal Probability and Self-Consistency for LLM Reasoning（大模型推理中内部概率与自洽性桥接的理论研究）[03:02] TOP2(🔥104) | 🚀 Efficient Long-context Language Model Training by Core Attention Disaggregation（通过核心注意力拆解实现高效长上下文语言模型训练）[05:29] TOP3(🔥100) | 🧠 LightMem: Lightweight and Efficient Memory-Augmented Generation（LightMem：轻量高效的记忆增强生成框架）[07:33] TOP4(🔥90) | 🧠 Every Attention Matters: An Efficient Hybrid Architecture for Long-Context Reasoning（每一种注意力都重要：面向长上下文推理的高效混合架构）[10:18] TOP5(🔥79) | 🤖 DeepAnalyze: Agentic Large Language Models for Autonomous Data Science（DeepAnalyze：面向自主数据科学的智能体大模型）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递在小宇宙查看该单集文稿

13分钟

99+

8个月前

2025.10.24 | AdaSPEC挑40% token提速两成；AutoPage 10美分生成交互网页

HuggingFace 每日AI论文速递

本期的 15 篇论文如下：[00:23] 🎯 AdaSPEC: Selective Knowledge Distillation for Efficient Speculative Decoders（AdaSPEC：面向高效推测解码的选择性知识蒸馏）[00:57] 🤖 Human-Agent Collaborative Paper-to-Page Crafting for Under $0.1（低成本人机协作论文一键成页：低于0.1美元）[01:35] 🔍 Open-o3 Video: Grounded Video Reasoning with Explicit Spatio-Temporal Evidence（Open-o3视频：显式时空证据支撑的开放域视频推理）[02:06] 🎬 HoloCine: Holistic Generation of Cinematic Multi-Shot Long Video Narratives（HoloCine：端到端生成多镜头长时电影级叙事视频）[02:52] 🌀 Loopholing Discrete Diffusion: Deterministic Bypass of the Sampling Wall（绕过离散扩散采样墙的确定性捷径）[03:33] 💎 Every Question Has Its Own Value: Reinforcement Learning with Explicit Human Values（每个问题都有它的价值：显式人类价值驱动的强化学习）[04:06] ⚖ The Massive Legal Embedding Benchmark (MLEB)（大规模法律嵌入评测基准（MLEB））[04:48] 🔍 DyPE: Dynamic Position Extrapolation for Ultra High Resolution Diffusion（DyPE：面向超高分辨率扩散模型的动态位置外推方法）[05:33] 🕵 Conan: Progressive Learning to Reason Like a Detective over Multi-Scale Visual Evidence（柯南：像侦探一样在多尺度视觉证据上渐进式推理）[06:12] 🤖 Search Self-play: Pushing the Frontier of Agent Capability without Supervision（搜索自博弈：无需监督即可拓展智能体能力边界）[06:56] 🎭 Investigating Safety Vulnerabilities of Large Audio-Language Models Under Speaker Emotional Variations（探究大音频语言模型在说话人情绪变化下的安全漏洞）[07:42] 🖼 LayerComposer: Interactive Personalized T2I via Spatially-Aware Layered Canvas（LayerComposer：基于空间感知分层画布的交互式个性化文生图）[08:10] 🎧 SAKE: Towards Editing Auditory Attribute Knowledge of Large Audio-Language Models（SAKE：面向大型音频-语言模型听觉属性知识编辑的探索）[08:51] 🖼 ARGenSeg: Image Segmentation with Autoregressive Image Generation Model（ARGenSeg：基于自回归图像生成的图像分割）[09:39] 🧩 Seed3D 1.0: From Images to High-Fidelity Simulation-Ready 3D Assets（Seed3D 1.0：从单张图像生成高保真、可仿真的3D资产）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递在小宇宙查看该单集文稿

10分钟

99+

8个月前

2025.10.23 | 线性注意力显存降十倍；动态裁剪PPO稳提分

HuggingFace 每日AI论文速递

本期的 15 篇论文如下：[00:19] 🧠 Every Attention Matters: An Efficient Hybrid Architecture for Long-Context Reasoning（每一种注意力都重要：面向长上下文推理的高效混合架构）[00:59] ⚖ BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping（BAPO：通过自适应裁剪的平衡策略优化稳定LLM离策略强化学习）[01:40] 🧠 LoongRL:Reinforcement Learning for Advanced Reasoning over Long Contexts（LoongRL：面向长文本高级推理的强化学习方法）[02:18] 🌍 GigaBrain-0: A World Model-Powered Vision-Language-Action Model（GigaBrain-0：基于世界模型的通才视觉-语言-动作大模型）[02:49] 🔄 Language Models are Injective and Hence Invertible（语言模型是单射的，因此可逆）[03:25] 📹 VideoAgentTrek: Computer Use Pretraining from Unlabeled Videos（VideoAgentTrek：利用无标注视频预训练计算机操作智能体）[04:01] 📲 DaMo: Data Mixing Optimizer in Fine-tuning Multimodal LLMs for Mobile Phone Agents（DaMo：面向手机智能体的多模态大模型微调数据配比优化器）[04:55] 🚀 Unified Reinforcement and Imitation Learning for Vision-Language Models（统一强化与模仿学习的视觉-语言模型）[05:28] 🖼 Pico-Banana-400K: A Large-Scale Dataset for Text-Guided Image Editing（Pico-Banana-400K：面向文本引导图像编辑的大规模高质量数据集）[06:17] 📊 FinSight: Towards Real-World Financial Deep Research（FinSight：迈向真实场景的金融深度研究）[07:06] 🧠 Are they lovers or friends? Evaluating LLMs' Social Reasoning in English and Korean Dialogues（他们是恋人还是朋友？评估大语言模型在英韩对话中的社会推理能力）[07:43] 🌍 OmniNWM: Omniscient Driving Navigation World Models（OmniNWM：全景驾驶导航全知世界模型）[08:28] 🕳 Attention Sinks in Diffusion Language Models（扩散语言模型中的注意力沉陷现象）[09:04] 📄 olmOCR 2: Unit Test Rewards for Document OCR（olmOCR 2：基于单元测试奖励的文档OCR系统）[09:42] 🧠 KORE: Enhancing Knowledge Injection for Large Multimodal Models via Knowledge-Oriented Augmentations and Constraints（KORE：通过知识导向增强与约束为大模型持续注入知识）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递在小宇宙查看该单集文稿

10分钟

69

8个月前

2025.10.22 | LightMem压缩记忆千倍提速12倍；闭环世界模型微调8万数据反超巨兽

HuggingFace 每日AI论文速递

本期的 14 篇论文如下：[00:19] 🧠 LightMem: Lightweight and Efficient Memory-Augmented Generation（LightMem：轻量高效的记忆增强生成框架）[00:55] 🌀 World-in-World: World Models in a Closed-Loop World（世界中的世界：闭环环境下的世界模型）[01:44] 🖼 UniGenBench++: A Unified Semantic Evaluation Benchmark for Text-to-Image Generation（UniGenBench++：面向文本到图像生成的统一语义评测基准）[02:29] 🧪 Chem-R: Learning to Reason as a Chemist（Chem-R：像化学家一样学习推理）[03:10] 🎬 MoGA: Mixture-of-Groups Attention for End-to-End Long Video Generation（MoGA：面向端到端长视频生成的分组混合注意力机制）[03:52] 🔍 Grasp Any Region: Towards Precise, Contextual Pixel Understanding for Multimodal LLMs（任意区域皆可掌握：面向多模态大模型的精准上下文像素级理解）[04:49] 🎬 IF-VidCap: Can Video Caption Models Follow Instructions?（IF-VidCap：视频字幕模型能听懂指令吗？）[05:35] 🚀 Every Step Evolves: Scaling Reinforcement Learning for Trillion-Scale Thinking Model（万亿参数思维模型的强化学习扩展之路）[06:21] 🎬 MT-Video-Bench: A Holistic Video Understanding Benchmark for Evaluating Multimodal LLMs in Multi-Turn Dialogues（MT-Video-Bench：面向多轮对话评估多模态大模型视频理解能力的综合基准）[07:12] 🧠 ssToken: Self-modulated and Semantic-aware Token Selection for LLM Fine-tuning（ssToken：面向大模型微调的自调制语义感知Token筛选方法）[07:43] 🎬 MUG-V 10B: High-efficiency Training Pipeline for Large Video Generation Models（MUG-V 10B：面向大视频生成模型的高效训练流水线）[08:18] 🎯 ProCLIP: Progressive Vision-Language Alignment via LLM-based Embedder（ProCLIP：基于大语言模型嵌入器的渐进式视觉-语言对齐方法）[09:29] 🎬 UltraGen: High-Resolution Video Generation with Hierarchical Attention（UltraGen：基于分层注意力的原生高分辨率视频生成）[10:15] 🔄 DSI-Bench: A Benchmark for Dynamic Spatial Intelligence（DSI-Bench：动态空间智能评测基准）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递在小宇宙查看该单集文稿

11分钟

99+

8个月前

2025.10.21 | 模型不懂光影折射；小模型也能写报告

HuggingFace 每日AI论文速递

本期的 13 篇论文如下：[00:21] 🪞 PICABench: How Far Are We from Physically Realistic Image Editing?（PICABench：我们离物理真实的图像编辑还有多远？）[01:04] 🤖 DeepAnalyze: Agentic Large Language Models for Autonomous Data Science（DeepAnalyze：面向自主数据科学的智能体大模型）[01:50] 🗜 Glyph: Scaling Context Windows via Visual-Text Compression（Glyph：通过视觉-文本压缩扩展上下文窗口长度）[02:23] 🔍 Towards Mixed-Modal Retrieval for Universal Retrieval-Augmented Generation（面向通用检索增强生成的混合模态检索研究）[03:10] 🔗 When to Ensemble: Identifying Token-Level Points for Stable and Fast LLM Ensembling（何时集成：定位Token级位置实现稳定高效的大模型集成）[04:09] 🎯 Annotation-Efficient Universal Honesty Alignment（注释高效型通用诚实对齐）[04:49] 🖌 Uniworld-V2: Reinforce Image Editing with Diffusion Negative-aware Finetuning and MLLM Implicit Feedback（Uniworld-V2：借助扩散负感知微调与MLLM隐式反馈强化图像编辑）[05:46] 👁 RL makes MLLMs see better than SFT（强化学习让多模态大模型看得比监督微调更清楚）[06:33] 🚀 Visual Autoregressive Models Beat Diffusion Models on Inference Time Scaling（视觉自回归模型在推理时扩展上击败扩散模型）[07:09] 🎨 ConsistEdit: Highly Consistent and Precise Training-free Visual Editing（ConsistEdit：面向MM-DiT的高一致免训练视觉编辑）[07:56] 🔄 Deep Self-Evolving Reasoning（深度自演化推理）[08:22] 🧠 Beyond Pipelines: A Survey of the Paradigm Shift toward Model-Native Agentic AI（超越流水线：模型原生智能体AI范式转移综述）[09:07] 🔮 Chronos-2: From Univariate to Universal Forecasting（Chronos-2：从单变量到通用预测）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递在小宇宙查看该单集文稿

10分钟

99+

8个月前

2025.10.20 | RPC剪枝提速保准；OmniVinci小数据跨模态称王

HuggingFace 每日AI论文速递

本期的 15 篇论文如下：[00:20] 🧠 A Theoretical Study on Bridging Internal Probability and Self-Consistency for LLM Reasoning（大模型推理中内部概率与自洽性桥接的理论研究）[01:04] 🌐 OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM（OmniVinci：面向全模态理解大模型的架构与数据增强）[01:44] 🎬 Scaling Instruction-Based Video Editing with a High-Quality Synthetic Dataset（用百万级合成数据集放大指令式视频编辑）[02:28] ✂ NANO3D: A Training-Free Approach for Efficient 3D Editing Without Masks（NANO3D：无需训练与掩码的高效3D编辑新方法）[03:05] 🛰 Skyfall-GS: Synthesizing Immersive 3D Urban Scenes from Satellite Imagery（Skyfall-GS：仅凭卫星影像合成沉浸式3D城市场景）[03:41] ⚠ Emergent Misalignment via In-Context Learning: Narrow in-context examples can produce broadly misaligned LLMs（情境学习中的突发错位：狭窄示例可让大模型广泛失准）[04:18] 🧬 Latent Diffusion Model without Variational Autoencoder（无需变分自编码器的潜在扩散模型）[04:52] 📸 LightsOut: Diffusion-based Outpainting for Enhanced Lens Flare Removal（LightsOut：基于扩散的延展补全提升镜头眩光去除）[05:30] 🧠 MorphoBench: A Benchmark with Difficulty Adaptive to Model Reasoning（MorphoBench：随模型推理能力自适应难度的评测基准）[06:14] 🧠 A$^2$FM: An Adaptive Agent Foundation Model for Tool-Aware Hybrid Reasoning（A²FM：面向工具感知混合推理的自适应智能体基础模型）[06:56] 🗣 Language Models Model Language（语言模型即语言本身）[07:36] 🖼 BLIP3o-NEXT: Next Frontier of Native Image Generation（BLIP3o-NEXT：原生图像生成的下一个前沿）[08:30] 🌐 Paper2Web: Let's Make Your Paper Alive!（Paper2Web：让你的论文“活”起来！）[09:12] 🔬 Foundation Models for Scientific Discovery: From Paradigm Enhancement to Paradigm Transition（面向科学发现的基础模型：从范式增强到范式跃迁）[09:55] 🔍 Explore to Evolve: Scaling Evolved Aggregation Logic via Proactive Online Exploration for Deep Research Agents（探索以进化：通过主动在线探索扩展深度研究智能体的聚合逻辑）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递在小宇宙查看该单集文稿

11分钟

94

8个月前

【周末特辑】11月第1周最火AI论文 | 循环模型省参强推理；Concerto 2D-3D自监督涨点

2025.10.31 | Emu3.5统一预测时空；扩散提示驱动机器人

2025.10.30 | 看图写码7B逆袭；视频思维RL破局

2025.10.29 | 通义深度研究报告；小模型折记忆胜671B巨模型

2025.10.28 | Point Transformer无标对齐长空间；代码递归统一粗细粒度

2025.10.27 | DeepAgent一步推理+ToolPO；视频即提示DiT秒控百种语义

【周末特辑】10月第4周最火AI论文 | 内部概率+投票剪尾，RPC省样本提精度

2025.10.24 | AdaSPEC挑40% token提速两成；AutoPage 10美分生成交互网页

2025.10.23 | 线性注意力显存降十倍；动态裁剪PPO稳提分

2025.10.22 | LightMem压缩记忆千倍提速12倍；闭环世界模型微调8万数据反超巨兽

2025.10.21 | 模型不懂光影折射；小模型也能写报告

2025.10.20 | RPC剪枝提速保准；OmniVinci小数据跨模态称王

加入我们的 Discord

扫描微信二维码

播放列表

HuggingFace 每日AI论文速递 - 节目列表

【周末特辑】11月第1周最火AI论文 | 循环模型省参强推理；Concerto 2D-3D自监督涨点

2025.10.31 | Emu3.5统一预测时空；扩散提示驱动机器人

2025.10.30 | 看图写码7B逆袭；视频思维RL破局

2025.10.29 | 通义深度研究报告；小模型折记忆胜671B巨模型

2025.10.28 | Point Transformer无标对齐长空间；代码递归统一粗细粒度

2025.10.27 | DeepAgent一步推理+ToolPO；视频即提示DiT秒控百种语义

【周末特辑】10月第4周最火AI论文 | 内部概率+投票剪尾，RPC省样本提精度

2025.10.24 | AdaSPEC挑40% token提速两成；AutoPage 10美分生成交互网页

2025.10.23 | 线性注意力显存降十倍；动态裁剪PPO稳提分

2025.10.22 | LightMem压缩记忆千倍提速12倍；闭环世界模型微调8万数据反超巨兽

2025.10.21 | 模型不懂光影折射；小模型也能写报告

2025.10.20 | RPC剪枝提速保准；OmniVinci小数据跨模态称王

加入我们的 Discord

扫描微信二维码

播放列表