HuggingFace 每日AI论文速递 - 2026.05.04 | 统一扩散框架十五合一；多智能体搜索碾压单兵 - EarsOnMe

主播

节目简介

来源：小宇宙

【目录】
本期的 15 篇论文如下：
[00:23] 🎥 UniVidX: A Unified Multimodal Framework for Versatile Video Generation via Diffusion Priors（UniVidX：一种基于扩散先验的统一多模态框架用于多功能视频生成）
[01:20] 🕸 Web2BigTable: A Bi-Level Multi-Agent LLM System for Internet-Scale Information Search and Extraction（Web2BigTable：一种用于互联网规模信息搜索与提取的双层多智能体大语言模型系统）
[02:11] 🌍 Map2World: Segment Map Conditioned Text to 3D World Generation（Map2World：基于分割地图条件文本到3D世界生成）
[03:05] 🤖 Learning while Deploying: Fleet-Scale Reinforcement Learning for Generalist Robot Policies（边部署边学习：面向通用机器人策略的车队级强化学习）
[03:46] 🧩 From Skill Text to Skill Structure: The Scheduling-Structural-Logical Representation for Agent Skills（从技能文本到技能结构：面向智能体技能的调度-结构-逻辑表示）
[04:39] 🎨 Let ViT Speak: Generative Language-Image Pre-training（让ViT说话：生成式语言-图像预训练）
[05:21] 🧩 When Do Diffusion Models learn to Generate Multiple Objects?（扩散模型何时学会生成多个物体？）
[06:14] 🌳 Trees to Flows and Back: Unifying Decision Trees and Diffusion Models（从树到流再回归：统一决策树与扩散模型）
[07:14] 🖼 End-to-End Autoregressive Image Generation with 1D Semantic Tokenizer（端到端自回归图像生成与一维语义分词器）
[08:09] 🔍 Online Self-Calibration Against Hallucination in Vision-Language Models（视觉语言模型中针对幻觉的在线自校准方法）
[08:49] 🤖 Learning to Act and Cooperate for Distributed Black-Box Consensus Optimization（学习行动与合作：面向分布式黑箱共识优化的自设计方法）
[09:34] 🗣 LASE: Language-Adversarial Speaker Encoding for Indic Cross-Script Identity Preservation（LASE：面向印度跨文字身份保持的语言对抗性说话人编码）
[10:34] 🎤 Talker-T2AV: Joint Talking Audio-Video Generation with Autoregressive Diffusion Modeling（Talker-T2AV：基于自回归扩散建模的联合语音-视频生成）
[11:32] 🔌 AnalogRetriever: Learning Cross-Modal Representations for Analog Circuit Retrieval（模拟电路检索器：学习用于模拟电路检索的跨模态表示）
[12:19] 🏆 Themis: Training Robust Multilingual Code Reward Models for Flexible Multi-Criteria Scoring（Themis：训练鲁棒的多语言代码奖励模型以实现灵活的多标准评分）
【关注我们】
您还可以在以下平台找到我们，获得播客内容以外更多信息
小红书: AI速递

2026.05.04 | 统一扩散框架十五合一；多智能体搜索碾压单兵

加入我们的 Discord

扫描微信二维码

播放列表