HuggingFace 每日AI论文速递 - 2026.03.09 | LLM做视觉编码器；BandPO剪得更聪明 - EarsOnMe

主播

拨号上网 1 档播客

节目简介

来源：小宇宙

【赞助商】

通勤路上就听AI每周谈。AI每周谈，每周带你回顾上周AI大事

传送门 🔗https://www.xiaoyuzhoufm.com/podcast/688a34636f5a275f1cba40fd

【目录】

本期的 15 篇论文如下：

[00:34] 🐧 Penguin-VL: Exploring the Efficiency Limits of VLM with LLM-based Vision Encoders（Penguin-VL：探索基于LLM视觉编码器的VLM效率极限）

[01:16] 🚀 BandPO: Bridging Trust Regions and Ratio Clipping via Probability-Aware Bounds for LLM Reinforcement Learning（BandPO：通过概率感知边界桥接信任区域与比率裁剪以用于大语言模型强化学习）

[02:02] ⚡ Planning in 8 Tokens: A Compact Discrete Tokenizer for Latent World Model（8个令牌的规划：用于潜在世界模型的紧凑离散分词器）

[02:43] 🚀 Progressive Residual Warmup for Language Model Pretraining（语言模型预训练的渐进残差预热方法）

[03:41] 🎬 WildActor: Unconstrained Identity-Preserving Video Generation（WildActor：无约束身份保持的视频生成）

[04:38] 🧠 RoboMME: Benchmarking and Understanding Memory for Robotic Generalist Policies（RoboMME：机器人通用策略的记忆基准测试与理解）

[05:31] 🤔 Reasoning Models Struggle to Control their Chains of Thought（推理模型难以控制其思维链）

[06:13] 🧭 HiMAP-Travel: Hierarchical Multi-Agent Planning for Long-Horizon Constrained Travel（HiMAP-Travel：面向长时域约束旅行的分层多智能体规划）

[06:59] ⚡ FlashPrefill: Instantaneous Pattern Discovery and Thresholding for Ultra-Fast Long-Context Prefilling（FlashPrefill：面向超快速长上下文预填充的即时模式发现与阈值化方法）

[07:49] 🚀 $π$-StepNFT: Wider Space Needs Finer Steps in Online RL for Flow-based VLAs（π-StepNFT：在线强化学习中，基于流的视觉语言动作模型需要更精细的步骤以适应更广的空间）

[08:32] 🧠 Mario: Multimodal Graph Reasoning with Large Language Models（Mario：基于大语言模型的多模态图推理）

[09:22] 🎬 Physical Simulator In-the-Loop Video Generation（物理模拟器在环视频生成）

[10:14] 🧩 Dynamic Chunking Diffusion Transformer（动态分块扩散变换器）

[11:05] 🔄 SLER-IR: Spherical Layer-wise Expert Routing for All-in-One Image Restoration（SLER-IR：面向一体化图像修复的球面分层专家路由框架）

[11:50] 🧊 PixARMesh: Autoregressive Mesh-Native Single-View Scene Reconstruction（PixARMesh：基于自回归网格原生模型的单视角场景重建）

【关注我们】

您还可以在以下平台找到我们，获得播客内容以外更多信息

小红书: AI速递

在小宇宙查看该单集文稿

2026.03.09 | LLM做视觉编码器；BandPO剪得更聪明

加入我们的 Discord

扫描微信二维码

播放列表