HuggingFace 每日AI论文速递 - 【周末特辑】3月第5周最火AI论文 | 扩散OCR逆向渲染；世界模型交互大考 - EarsOnMe

主播

节目简介

来源：小宇宙

【赞助商】
通勤路上就听AI每周谈。AI每周谈，每周带你回顾上周AI大事
传送门 🔗https://www.xiaoyuzhoufm.com/podcast/688a34636f5a275f1cba40fd
【目录】
本期的 5 篇论文如下：
[00:49] TOP1(🔥124) | 🔍 MinerU-Diffusion: Rethinking Document OCR as Inverse Rendering via Diffusion Decoding（MinerU-Diffusion：将文档OCR重新思考为通过扩散解码的逆向渲染）
[03:11] TOP2(🔥122) | 🧪 Omni-WorldBench: Towards a Comprehensive Interaction-Centric Evaluation for World Models（Omni-WorldBench：迈向面向世界模型的全面交互中心化评估）
[05:47] TOP3(🔥114) | 🚀 Speed by Simplicity: A Single-Stream Architecture for Fast Audio-Video Generative Foundation Model（速度源于简洁：用于快速音视频生成基础模型的单流架构）
[07:54] TOP4(🔥104) | 🎬 Astrolabe: Steering Forward-Process Reinforcement Learning for Distilled Autoregressive Video Models（Astrolabe：面向蒸馏自回归视频模型的前向过程强化学习引导框架）
[10:09] TOP5(🔥104) | 🔗 HopChain: Multi-Hop Data Synthesis for Generalizable Vision-Language Reasoning（HopChain：用于可泛化视觉语言推理的多跳数据合成）
【关注我们】
您还可以在以下平台找到我们，获得播客内容以外更多信息
小红书: AI速递

【周末特辑】3月第5周最火AI论文 | 扩散OCR逆向渲染；世界模型交互大考

加入我们的 Discord

扫描微信二维码

播放列表