节目列表: HuggingFace 每日AI论文速递 - EarsOnMe

2026.01.19 | GRPO回报纠偏助啃难题；毒苹果AI未用已扰市

【赞助商】通勤路上就听AI每周谈。AI每周谈，每周带你回顾上周AI大事传送门 🔗 https://www.xiaoyuzhoufm.com/podcast/688a34636f5a275f1cba40fd 【目录】本期的 15 篇论文如下： [00:33] ⚖ Your Group-Relative Advantage Is Biased（你的组相对优势存在偏差） [01:20] 🍎 The Poisoned Apple Effect: Strategic Manipulation of Mediated Markets via Technology Expansion of AI Agents（毒苹果效应：通过AI代理技术扩展对中介市场的战略性操纵） [02:08] 🛠 Unlocking Implicit Experience: Synthesizing Tool-Use Trajectories from Text（解锁隐性经验：从文本合成工具使用轨迹） [03:14] 📊 RubricHub: A Comprehensive and Highly Discriminative Rubric Dataset via Automated Coarse-to-Fine Generation（RubricHub：通过自动化粗到细生成构建的全面且高区分度的评分标准数据集） [04:20] 🤔 When Personalization Misleads: Understanding and Mitigating Hallucinations in Personalized LLMs（当个性化误导时：理解并缓解个性化大语言模型中的幻觉现象） [05:18] 🤖 ACoT-VLA: Action Chain-of-Thought for Vision-Language-Action Models（ACoT-VLA：面向视觉-语言-动作模型的动作思维链） [06:07] 🚧 BAPO: Boundary-Aware Policy Optimization for Reliable Agentic Search（BAPO：面向可靠智能搜索的边界感知策略优化） [07:04] 🎯 ProFit: Leveraging High-Value Signals in SFT via Probability-Guided Token Selection（ProFit：通过概率引导的令牌选择在SFT中利用高价值信号） [08:01] 🤖 FrankenMotion: Part-level Human Motion Generation and Composition（FrankenMotion：部件级人体运动生成与组合） [08:54] 🧠 Reasoning Models Generate Societies of Thought（推理模型生成思想社会） [09:40] 🤖 PersonalAlign: Hierarchical Implicit Intent Alignment for Personalized GUI Agent with Long-Term User-Centric Records（PersonalAlign：基于长期用户中心化记录的个性化GUI代理的层次化隐式意图对齐） [10:27] 🔍 Building Production-Ready Probes For Gemini（构建适用于Gemini的生产级探针） [11:21] ⚙ PhysRVG: Physics-Aware Unified Reinforcement Learning for Video Generative Models（PhysRVG：基于物理感知统一强化学习的视频生成模型） [12:31] 🧊 ShapeR: Robust Conditional 3D Shape Generation from Casual Captures（ShapeR：从随意拍摄中实现鲁棒的条件式3D形状生成） [13:24] 🚀 AstroReason-Bench: Evaluating Unified Agentic Planning across Heterogeneous Space Planning Problems（AstroReason-Bench：评估异构空间规划问题中的统一智能体规划能力）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

14分钟

【周末特辑】1月第3周最火AI论文 | VideoDR测模型搜证漂移；BabyVision曝视觉短板

本期的 5 篇论文如下： [00:29] TOP1(🔥201) | 🔍 Watching, Reasoning, and Searching: A Video Deep Research Benchmark on Open Web for Agentic Video Reasoning（观察、推理与搜索：面向智能体视频推理的开放网络视频深度研究基准） [02:45] TOP2(🔥179) | 👶 BabyVision: Visual Reasoning Beyond Language（BabyVision：超越语言的视觉推理） [05:00] TOP3(🔥158) | 🗺 Thinking with Map: Reinforced Parallel Map-Augmented Agent for Geolocalization（借助地图思考：用于地理定位的强化并行地图增强智能体） [07:03] TOP4(🔥140) | 🏙 Urban Socio-Semantic Segmentation with Vision-Language Reasoning（基于视觉语言推理的城市社会语义分割） [09:07] TOP5(🔥134) | 🚀 STEP3-VL-10B Technical Report（STEP3-VL-10B 技术报告）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

2026.01.16 | 10B模型逆袭千亿巨头；AI一眼读出城市功能

本期的 15 篇论文如下： [00:20] 🚀 STEP3-VL-10B Technical Report（STEP3-VL-10B 技术报告） [01:01] 🏙 Urban Socio-Semantic Segmentation with Vision-Language Reasoning（基于视觉语言推理的城市社会语义分割） [01:42] 💡 Rewarding the Rare: Uniqueness-Aware RL for Creative Problem Solving in LLMs（奖励罕见：面向LLM创造性问题解决的独特性感知强化学习） [02:33] 🤖 Collaborative Multi-Agent Test-Time Reinforcement Learning for Reasoning（用于推理的协作式多智能体测试时强化学习） [03:14] 🧬 Beyond Static Tools: Test-Time Tool Evolution for Scientific Reasoning（超越静态工具：面向科学推理的测试时工具演化） [03:59] 📊 DanQing: An Up-to-Date Large-Scale Chinese Vision-Language Pre-training Dataset（丹青：一个最新的大规模中文视觉语言预训练数据集） [04:39] 🎨 CoF-T2I: Video Models as Pure Visual Reasoners for Text-to-Image Generation（CoF-T2I：将视频模型作为纯视觉推理器用于文本到图像生成） [05:33] 🧠 Toward Ultra-Long-Horizon Agentic Science: Cognitive Accumulation for Machine Learning Engineering（迈向超长视野的代理科学：机器学习工程中的认知积累） [06:12] 🤔 Think-Then-Generate: Reasoning-Aware Text-to-Image Diffusion with LLM Encoders（先思后生：基于大语言模型编码器的推理感知文本到图像扩散方法） [06:48] 🔧 MatchTIR: Fine-Grained Supervision for Tool-Integrated Reasoning via Bipartite Matching（MatchTIR：通过二分图匹配实现工具集成推理的细粒度监督） [07:29] 🛡 A Safety Report on GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, and Seedream 4.5（关于GPT-5.2、Gemini 3 Pro、Qwen3-VL、Doubao 1.8、Grok 4.1 Fast、Nano Banana Pro和Seedream 4.5的安全性报告） [08:09] 🛡 ToolSafe: Enhancing Tool Invocation Safety of LLM-based agents via Proactive Step-level Guardrail and Feedback（ToolSafe：通过主动的步骤级护栏与反馈增强基于LLM的智能体的工具调用安全性） [08:59] 🎬 FlowAct-R1: Towards Interactive Humanoid Video Generation（FlowAct-R1：迈向交互式人形视频生成） [09:39] 🎨 VIBE: Visual Instruction Based Editor（VIBE：基于视觉指令的编辑器） [10:09] ⚡ Transition Matching Distillation for Fast Video Generation（用于快速视频生成的过渡匹配蒸馏）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

2026.01.15 | 算法自进化夺冠；LLM远瞻省token

本期的 15 篇论文如下： [00:20] 🧬 Controlled Self-Evolution for Algorithmic Code Optimization（用于算法代码优化的受控自进化方法） [00:52] 🧠 MAXS: Meta-Adaptive Exploration with LLM Agents（MAXS：基于大语言模型智能体的元自适应探索） [01:27] 🧠 $A^3$-Bench: Benchmarking Memory-Driven Scientific Reasoning via Anchor and Attractor Activation（A³-Bench：通过锚点与吸引子激活基准测试记忆驱动的科学推理） [02:10] 🔍 DeepResearchEval: An Automated Framework for Deep Research Task Construction and Agentic Evaluation（DeepResearchEval：面向深度研究任务构建与智能体评估的自动化框架） [02:53] 🔬 SkinFlow: Efficient Information Transmission for Open Dermatological Diagnosis via Dynamic Visual Encoding and Staged RL（SkinFlow：通过动态视觉编码与分阶段强化学习实现开放皮肤病诊断的高效信息传输） [03:49] ⚡ Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning（Fast-ThinkAct：基于可言语化潜在规划的高效视觉-语言-动作推理） [04:20] 🧊 OpenVoxel: Training-Free Grouping and Captioning Voxels for Open-Vocabulary 3D Scene Understanding（OpenVoxel：无需训练的体素分组与描述，实现开放词汇3D场景理解） [05:03] 🧠 Distribution-Aligned Sequence Distillation for Superior Long-CoT Reasoning（面向卓越长链思维推理的分布对齐序列蒸馏） [06:04] 🧠 ExpSeek: Self-Triggered Experience Seeking for Web Agents（ExpSeek：面向网络智能体的自触发经验寻求方法） [06:53] ⚠ Are LLMs Vulnerable to Preference-Undermining Attacks (PUA)? A Factorial Analysis Methodology for Diagnosing the Trade-off between Preference Alignment and Real-World Validity（大型语言模型是否易受偏好颠覆攻击？一种诊断偏好对齐与现实有效性权衡的因子分析方法论） [07:30] 🔄 EvoFSM: Controllable Self-Evolution for Deep Research with Finite State Machines（EvoFSM：基于有限状态机的可控自演化深度研究框架） [08:04] 🧠 Imagine-then-Plan: Agent Learning from Adaptive Lookahead with World Models（想象而后规划：基于世界模型的自适应前瞻智能体学习） [08:46] 🌐 TranslateGemma Technical Report（TranslateGemma技术报告） [09:22] 🧠 The AI Hippocampus: How Far are We From Human Memory?（AI海马体：我们距离人类记忆还有多远？） [10:03] 🎯 FocusUI: Efficient UI Grounding via Position-Preserving Visual Token Selection（FocusUI：通过位置保持的视觉令牌选择实现高效用户界面定位）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

2026.01.14 | 合成数据喂出低资源学霸；AI自演多轮对话更靠谱

本期的 15 篇论文如下： [00:20] 🌍 Solar Open Technical Report（Solar Open 技术报告） [00:54] 🤖 User-Oriented Multi-Turn Dialogue Generation with Tool Use at scale（面向用户的大规模多轮对话生成与工具使用） [01:39] 🧠 MemGovern: Enhancing Code Agents through Learning from Governed Human Experiences（MemGovern：通过从受治理的人类经验中学习来增强代码代理） [02:11] 🖱 ShowUI-$π$: Flow-based Generative Models as GUI Dexterous Hands（ShowUI-π：基于流的生成模型作为GUI灵巧手） [02:44] 🧠 KnowMe-Bench: Benchmarking Person Understanding for Lifelong Digital Companions（KnowMe-Bench：面向终身数字伴侣的人物理解基准测试） [03:15] 🏆 ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking（ArenaRL：通过基于锦标赛的相对排名扩展开放智能体强化学习） [04:07] 🧠 Ministral 3（Ministral 3系列模型） [04:51] ⚖ The Confidence Dichotomy: Analyzing and Mitigating Miscalibration in Tool-Use Agents（置信度二分法：分析与缓解工具使用智能体中的校准错误） [05:31] 🧭 VLingNav: Embodied Navigation with Adaptive Reasoning and Visual-Assisted Linguistic Memory（VLingNav：基于自适应推理与视觉辅助语言记忆的具身导航） [06:24] 🎬 End-to-End Video Character Replacement without Structural Guidance（无需结构引导的端到端视频角色替换） [07:06] 🎬 Motion Attribution for Video Generation（视频生成中的运动归因） [07:36] 🚀 SnapGen++: Unleashing Diffusion Transformers for Efficient High-Fidelity Image Generation on Edge Devices（SnapGen++：释放扩散变换器在边缘设备上实现高效高保真图像生成） [08:12] ⚖ JudgeRLVR: Judge First, Generate Second for Efficient Reasoning（JudgeRLVR：先判断后生成的高效推理方法） [08:46] 📊 Aligning Text, Code, and Vision: A Multi-Objective Reinforcement Learning Framework for Text-to-Visualization（对齐文本、代码与视觉：基于多目标强化学习的文本到可视化生成框架） [09:25] 🔍 Towards Comprehensive Stage-wise Benchmarking of Large Language Models in Fact-Checking（迈向大型语言模型在事实核查中的全面分阶段基准测试）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

10分钟

2026.01.13 | VideoDR让模型边搜边推理；BabyVision揭视觉短板

本期的 15 篇论文如下： [00:20] 🔍 Watching, Reasoning, and Searching: A Video Deep Research Benchmark on Open Web for Agentic Video Reasoning（观察、推理与搜索：面向智能体视频推理的开放网络视频深度研究基准） [01:01] 👶 BabyVision: Visual Reasoning Beyond Language（BabyVision：超越语言的视觉推理） [01:45] 🚀 PaCoRe: Learning to Scale Test-Time Compute with Parallel Coordinated Reasoning（PaCoRe：通过并行协调推理学习扩展测试时计算） [02:24] 🧠 X-Coder: Advancing Competitive Programming with Fully Synthetic Tasks, Solutions, and Tests（X-Coder：基于全合成任务、解决方案与测试推进竞争性编程） [03:03] ⚡ MHLA: Restoring Expressivity of Linear Attention via Token-Level Multi-Head（MHLA：通过令牌级多头机制恢复线性注意力的表达能力） [03:41] ⚡ GlimpRouter: Efficient Collaborative Inference by Glimpsing One Token of Thoughts（GlimpRouter：通过瞥见思维令牌实现高效协同推理） [04:17] 🤖 OS-Symphony: A Holistic Framework for Robust and Generalist Computer-Using Agent（OS-Symphony：一个用于鲁棒且通用的计算机使用智能体的整体框架） [05:20] 📉 Lost in the Noise: How Reasoning Models Fail with Contextual Distractors（迷失于噪声之中：推理模型如何因上下文干扰物而失效） [06:00] 🚀 Beyond Hard Masks: Progressive Token Evolution for Diffusion Language Models（超越硬掩码：扩散语言模型的渐进式令牌演化） [06:30] 🧠 Controllable Memory Usage: Balancing Anchoring and Innovation in Long-Term Human-Agent Interaction（可控内存使用：在长期人机交互中平衡锚定与创新） [07:10] 🚗 DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving（DrivingGen：自动驾驶生成式视频世界模型的综合基准） [07:58] 🤖 MegaFlow: Large-Scale Distributed Orchestration System for the Agentic Era（MegaFlow：面向智能体时代的大规模分布式编排系统） [08:26] 🎨 Boosting Latent Diffusion Models via Disentangled Representation Alignment（通过解耦表征对齐提升潜在扩散模型） [09:08] 🤔 What Users Leave Unsaid: Under-Specified Queries Limit Vision-Language Models（用户未言明之处：欠明确的查询限制视觉语言模型） [09:45] 🔧 ET-Agent: Incentivizing Effective Tool-Integrated Reasoning Agent via Behavior Calibration（ET-Agent：通过行为校准激励有效的工具集成推理智能体）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

10分钟

2026.01.12 | 地图AI强化寻位；多模态Lean形式化

本期的 15 篇论文如下： [00:20] 🗺 Thinking with Map: Reinforced Parallel Map-Augmented Agent for Geolocalization（借助地图思考：用于地理定位的强化并行地图增强智能体） [01:03] 🧠 MMFormalizer: Multimodal Autoformalization in the Wild（MMFormalizer：面向真实世界的多模态自动形式化方法） [01:38] 🧬 The Molecular Structure of Thought: Mapping the Topology of Long Chain-of-Thought Reasoning（思维分子结构：长链思维推理的拓扑映射） [02:21] 🎭 CaricatureGS: Exaggerating 3D Gaussian Splatting Faces With Gaussian Curvature（CaricatureGS：基于高斯曲率夸张3D高斯泼溅人脸） [03:04] 🔍 Chaining the Evidence: Robust Reinforcement Learning for Deep Search Agents with Citation-Aware Rubric Rewards（证据链构建：基于引文感知评分奖励的深度搜索智能体鲁棒强化学习） [03:47] ⚙ EnvScaler: Scaling Tool-Interactive Environments for LLM Agent via Programmatic Synthesis（EnvScaler：通过程序化合成扩展LLM智能体的工具交互环境） [04:22] 🔮 Can We Predict Before Executing Machine Learning Agents?（我们能在执行前预测机器学习智能体的行为吗？） [04:59] 🖼 AgentOCR: Reimagining Agent History via Optical Self-Compression（AgentOCR：通过光学自压缩重构智能体历史） [05:39] 🎬 VideoAR: Autoregressive Video Generation via Next-Frame & Scale Prediction（VideoAR：通过下一帧与尺度预测的自回归视频生成） [06:29] 🔍 Qwen3-VL-Embedding and Qwen3-VL-Reranker: A Unified Framework for State-of-the-Art Multimodal Retrieval and Ranking（Qwen3-VL-Embedding与Qwen3-VL-Reranker：用于最先进多模态检索与排序的统一框架） [07:23] 🔍 Illusions of Confidence? Diagnosing LLM Truthfulness via Neighborhood Consistency（自信的幻觉？通过邻域一致性诊断大语言模型的真实性） [08:07] 🔄 Orient Anything V2: Unifying Orientation and Rotation Understanding（Orient Anything V2：统一物体朝向与旋转理解的增强基础模型） [08:37] 🔍 SmartSearch: Process Reward-Guided Query Refinement for Search Agents（SmartSearch：面向搜索代理的流程奖励引导查询优化框架） [09:23] ⚙ Goal Force: Teaching Video Models To Accomplish Physics-Conditioned Goals（目标力：教导视频模型实现物理条件目标） [10:11] 📊 Same Claim, Different Judgment: Benchmarking Scenario-Induced Bias in Multilingual Financial Misinformation Detection（相同声明，不同判断：多语言金融虚假信息检测中场景诱导偏见的基准测试）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

【周末特辑】1月第2周最火AI论文 | GDPO分灶吃饭稳优化；NeoVerse单目视频建4D

本期的 5 篇论文如下： [00:39] TOP1(🔥126) | 📈 GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization（GDPO：面向多奖励强化学习优化的组奖励解耦归一化策略优化） [02:31] TOP2(🔥108) | 🌍 NeoVerse: Enhancing 4D World Model with in-the-wild Monocular Videos（NeoVerse：利用野外单目视频增强4D世界模型） [04:40] TOP3(🔥107) | 🤖 Youtu-Agent: Scaling Agent Productivity with Automated Generation and Hybrid Policy Optimization（Youtu-Agent：通过自动化生成与混合策略优化扩展智能体生产力） [07:00] TOP4(🔥93) | 🔍 InfiniDepth: Arbitrary-Resolution and Fine-Grained Depth Estimation with Neural Implicit Fields（InfiniDepth：基于神经隐式场的任意分辨率与细粒度深度估计） [09:40] TOP5(🔥87) | 🎬 LTX-2: Efficient Joint Audio-Visual Foundation Model（LTX-2：高效的联合视听基础模型）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

12分钟

2026.01.09 | GDPO解耦奖励优化多任务；可学习乘数解锁矩阵尺度

本期的 15 篇论文如下： [00:21] 📈 GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization（GDPO：面向多奖励强化学习优化的组奖励解耦归一化策略优化） [01:05] ⚖ Learnable Multipliers: Freeing the Scale of Language Model Matrix Layers（可学习的乘数：释放语言模型矩阵层的尺度） [01:33] 🌙 RL-AWB: Deep Reinforcement Learning for Auto White Balance Correction in Low-Light Night-time Scenes（RL-AWB：基于深度强化学习的低光照夜间场景自动白平衡校正） [02:07] 🤖 RoboVIP: Multi-View Video Generation with Visual Identity Prompting Augments Robot Manipulation（RoboVIP：基于视觉身份提示的多视角视频生成增强机器人操作） [02:56] 🤝 RelayLLM: Efficient Reasoning via Collaborative Decoding（RelayLLM：基于协作解码的高效推理框架） [03:31] 🌲 AT$^2$PO: Agentic Turn-based Policy Optimization via Tree Search（AT²PO：基于树搜索的智能体回合制策略优化） [04:24] 🤔 VideoAuto-R1: Video Auto Reasoning via Thinking Once, Answering Twice（VideoAuto-R1：通过思考一次、回答两次实现视频自动推理） [04:57] 🎬 VerseCrafter: Dynamic Realistic Video World Model with 4D Geometric Control（VerseCrafter：具有4D几何控制的动态逼真视频世界模型） [05:34] 🔍 The Illusion of Specialization: Unveiling the Domain-Invariant "Standing Committee" in Mixture-of-Experts Models（专业化的幻象：揭示混合专家模型中的领域不变“常务委员会”） [06:09] 🎯 Few Tokens Matter: Entropy Guided Attacks on Vision-Language Models（少数令牌至关重要：针对视觉语言模型的熵引导攻击） [06:40] 🎥 Plenoptic Video Generation（全光视频生成） [07:12] ⚖ Agent-as-a-Judge（智能体作为评审者） [07:43] 📄 DocDancer: Towards Agentic Document-Grounded Information Seeking（DocDancer：面向智能体化的文档驱动信息检索） [08:20] 🧠 Re-Align: Structured Reasoning-guided Alignment for In-Context Image Generation and Editing（Re-Align：基于结构化推理引导对齐的上下文图像生成与编辑） [09:05] 🧠 DiffCoT: Diffusion-styled Chain-of-Thought Reasoning in LLMs（DiffCoT：大语言模型中的扩散风格思维链推理）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

10分钟

2026.01.08 | 熵加权微调保旧学；演化技能网络不断进阶

本期的 15 篇论文如下： [00:21] ⚖ Entropy-Adaptive Fine-Tuning: Resolving Confident Conflicts to Mitigate Forgetting（熵自适应微调：解决置信冲突以缓解遗忘） [01:15] 🧠 Evolving Programmatic Skill Networks（演化式程序化技能网络） [01:51] 🧠 Atlas: Orchestrating Heterogeneous Models and Tools for Multi-Domain Complex Reasoning（Atlas：面向多领域复杂推理的异构模型与工具编排框架） [02:31] 📊 Benchmark^2: Systematic Evaluation of LLM Benchmarks（基准测试的基准测试：大语言模型评估基准的系统性评估） [03:12] 🎬 Klear: Unified Multi-Task Audio-Video Joint Generation（Klear：统一的多任务音视频联合生成） [03:53] 🎬 Choreographing a World of Dynamic Objects（动态物体的编排：一个通用生成式流水线） [04:36] ✅ Agentic Rubrics as Contextual Verifiers for SWE Agents（作为上下文验证器的智能评分标准在软件工程代理中的应用） [05:11] ⚗ MDAgent2: Large Language Model for Code Generation and Knowledge Q&A in Molecular Dynamics（MDAgent2：用于分子动力学代码生成与知识问答的大语言模型） [05:55] 🚀 E-GRPO: High Entropy Steps Drive Effective Reinforcement Learning for Flow Models（E-GRPO：高熵步驱动流模型的有效强化学习） [06:53] 🛡 RedBench: A Universal Dataset for Comprehensive Red Teaming of Large Language Models（RedBench：一个用于大型语言模型全面红队测试的通用数据集） [07:36] 📊 EpiQAL: Benchmarking Large Language Models in Epidemiological Question Answering for Enhanced Alignment and Reasoning（EpiQAL：面向增强对齐与推理的流行病学问答大语言模型基准评测） [08:15] 🧠 Enhancing Linguistic Competence of Language Models through Pre-training with Language Learning Tasks（通过语言学习任务预训练增强语言模型的语言能力） [08:48] 🔬 Why LLMs Aren't Scientists Yet: Lessons from Four Autonomous Research Attempts（为什么大语言模型还不是科学家：来自四次自主研究尝试的教训） [09:25] 🤖 ThinkRL-Edit: Thinking in Reinforcement Learning for Reasoning-Centric Image Editing（ThinkRL-Edit：基于强化学习的思维式推理中心图像编辑） [10:17] 🧠 MAGMA: A Multi-Graph based Agentic Memory Architecture for AI Agents（MAGMA：一种基于多图的AI智能体记忆架构）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递

95

2026.01.07 | 无限深度任意采样；端到端语音转录分离

本期的 15 篇论文如下： [00:25] 🔍 InfiniDepth: Arbitrary-Resolution and Fine-Grained Depth Estimation with Neural Implicit Fields（InfiniDepth：基于神经隐式场的任意分辨率与细粒度深度估计） [01:07] 🎙 MOSS Transcribe Diarize: Accurate Transcription with Speaker Diarization（MOSS转录与说话人分离：带说话人归属和时间戳的准确转录） [01:46] 🔬 SciEvalKit: An Open-source Evaluation Toolkit for Scientific General Intelligence（SciEvalKit：一个用于科学通用智能的开源评估工具包） [02:32] 🎬 LTX-2: Efficient Joint Audio-Visual Foundation Model（LTX-2：高效的联合视听基础模型） [03:26] 🦄 UniCorn: Towards Self-Improving Unified Multimodal Models through Self-Generated Supervision（UniCorn：通过自生成监督实现自改进统一多模态模型） [04:06] 🎨 DreamStyle: A Unified Framework for Video Stylization（DreamStyle：视频风格化的统一框架） [04:38] 🧠 CogFlow: Bridging Perception and Reasoning through Knowledge Internalization for Visual Mathematical Problem Solving（CogFlow：通过知识内化桥接感知与推理，用于视觉数学问题求解） [05:25] ⚡ MiMo-V2-Flash Technical Report（MiMo-V2-Flash 技术报告） [06:15] 🎮 NitroGen: An Open Foundation Model for Generalist Gaming Agents（NitroGen：通用游戏智能体的开放基础模型） [06:58] 🤖 SOP: A Scalable Online Post-Training System for Vision-Language-Action Models（SOP：一种可扩展的视觉-语言-动作模型在线后训练系统） [07:43] 🛡 OpenRT: An Open-Source Red Teaming Framework for Multimodal LLMs（OpenRT：一个用于多模态大语言模型的开源红队测试框架） [08:31] 📍 The Sonar Moment: Benchmarking Audio-Language Models in Audio Geo-Localization（声纳时刻：音频语言模型在音频地理定位中的基准测试） [09:14] 🔍 X-MuTeST: A Multilingual Benchmark for Explainable Hate Speech Detection and A Novel LLM-consulted Explanation Framework（X-MuTeST：一个用于可解释仇恨言论检测的多语言基准及一种新颖的LLM咨询解释框架） [09:57] 🧠 Parallel Latent Reasoning for Sequential Recommendation（并行潜在推理用于序列推荐） [10:27] 🤖 WebGym: Scaling Training Environments for Visual Web Agents with Realistic Tasks（WebGym：利用真实任务扩展视觉网络代理的训练环境）【关注我们】您还可以在以下平台找到我们，获得播客内容以外更多信息小红书: AI速递