主播
节目简介
来源:小宇宙
【赞助商】
通勤路上就听AI每周谈。AI每周谈,每周带你回顾上周AI大事
传送门 🔗https://www.xiaoyuzhoufm.com/podcast/688a34636f5a275f1cba40fd
【目录】
本期的 5 篇论文如下:
[00:49] TOP1(🔥124) | 🔍 MinerU-Diffusion: Rethinking Document OCR as Inverse Rendering via Diffusion Decoding(MinerU-Diffusion:将文档OCR重新思考为通过扩散解码的逆向渲染)
[03:11] TOP2(🔥122) | 🧪 Omni-WorldBench: Towards a Comprehensive Interaction-Centric Evaluation for World Models(Omni-WorldBench:迈向面向世界模型的全面交互中心化评估)
[05:47] TOP3(🔥114) | 🚀 Speed by Simplicity: A Single-Stream Architecture for Fast Audio-Video Generative Foundation Model(速度源于简洁:用于快速音视频生成基础模型的单流架构)
[07:54] TOP4(🔥104) | 🎬 Astrolabe: Steering Forward-Process Reinforcement Learning for Distilled Autoregressive Video Models(Astrolabe:面向蒸馏自回归视频模型的前向过程强化学习引导框架)
[10:09] TOP5(🔥104) | 🔗 HopChain: Multi-Hop Data Synthesis for Generalizable Vision-Language Reasoning(HopChain:用于可泛化视觉语言推理的多跳数据合成)
【关注我们】
您还可以在以下平台找到我们,获得播客内容以外更多信息
小红书: AI速递
通勤路上就听AI每周谈。AI每周谈,每周带你回顾上周AI大事
传送门 🔗https://www.xiaoyuzhoufm.com/podcast/688a34636f5a275f1cba40fd
【目录】
本期的 5 篇论文如下:
[00:49] TOP1(🔥124) | 🔍 MinerU-Diffusion: Rethinking Document OCR as Inverse Rendering via Diffusion Decoding(MinerU-Diffusion:将文档OCR重新思考为通过扩散解码的逆向渲染)
[03:11] TOP2(🔥122) | 🧪 Omni-WorldBench: Towards a Comprehensive Interaction-Centric Evaluation for World Models(Omni-WorldBench:迈向面向世界模型的全面交互中心化评估)
[05:47] TOP3(🔥114) | 🚀 Speed by Simplicity: A Single-Stream Architecture for Fast Audio-Video Generative Foundation Model(速度源于简洁:用于快速音视频生成基础模型的单流架构)
[07:54] TOP4(🔥104) | 🎬 Astrolabe: Steering Forward-Process Reinforcement Learning for Distilled Autoregressive Video Models(Astrolabe:面向蒸馏自回归视频模型的前向过程强化学习引导框架)
[10:09] TOP5(🔥104) | 🔗 HopChain: Multi-Hop Data Synthesis for Generalizable Vision-Language Reasoning(HopChain:用于可泛化视觉语言推理的多跳数据合成)
【关注我们】
您还可以在以下平台找到我们,获得播客内容以外更多信息
小红书: AI速递