HuggingFace 每日AI论文速递 - 2026.03.04 | 统一模型“对齐税”拖累理解；通用点云编码器一锅端多场景 - EarsOnMe

主播

节目简介

来源：小宇宙

【赞助商】

通勤路上就听AI每周谈。AI每周谈，每周带你回顾上周AI大事

传送门 🔗https://www.xiaoyuzhoufm.com/podcast/688a34636f5a275f1cba40fd

【目录】

本期的 15 篇论文如下：

[00:32] 🔍 UniG2U-Bench: Do Unified Models Advance Multimodal Understanding?（UniG2U-Bench：统一模型是否推动了多模态理解的发展？）

[01:40] 🧩 Utonia: Toward One Encoder for All Point Clouds（Utonia：迈向适用于所有点云的统一编码器）

[02:21] 🔍 BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing?（超越SWE：当前代码智能体能否在单仓库缺陷修复之外生存？）

[03:00] 🔍 Beyond Language Modeling: An Exploration of Multimodal Pretraining（超越语言建模：多模态预训练的探索）

[03:53] 🧠 Beyond Length Scaling: Synergizing Breadth and Depth for Generative Reward Models（超越长度缩放：融合广度与深度以优化生成式奖励模型）

[04:40] 🎯 How Controllable Are Large Language Models? A Unified Evaluation across Behavioral Granularities（大型语言模型的可控性如何？跨行为粒度的统一评估）

[05:16] 🎬 Kling-MotionControl Technical Report（Kling-MotionControl技术报告）

[05:58] 🎬 Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance（Kiwi-Edit：基于指令与参考引导的通用视频编辑）

[07:01] 🤖 Qwen3-Coder-Next Technical Report（Qwen3-Coder-Next技术报告）

[07:46] 🧠 PRISM: Pushing the Frontier of Deep Think via Process Reward Model-Guided Inference（PRISM：通过过程奖励模型引导的推理推动深度思考前沿）

[08:30] 🔍 InfoPO: Information-Driven Policy Optimization for User-Centric Agents（InfoPO：面向用户中心智能体的信息驱动策略优化）

[09:29] 🔬 Surgical Post-Training: Cutting Errors, Keeping Knowledge（手术式后训练：精准修正错误，稳固保留知识）

[10:14] 🎛 CFG-Ctrl: Control-Based Classifier-Free Diffusion Guidance（CFG-Ctrl：基于控制的Classifier-Free扩散引导）

[10:53] 🎬 NOVA: Sparse Control, Dense Synthesis for Pair-Free Video Editing（NOVA：稀疏控制与密集合成的无配对视频编辑框架）

[11:58] ⚡ Spilled Energy in Large Language Models（大语言模型中的能量溢出）

【关注我们】

您还可以在以下平台找到我们，获得播客内容以外更多信息

小红书: AI速递

2026.03.04 | 统一模型“对齐税”拖累理解；通用点云编码器一锅端多场景