HuggingFace 每日AI论文速递 - 2026.05.12 | 数学家闭门出题考倒大模型；生图模型千字提示精准成画 - EarsOnMe

主播

节目简介

来源：小宇宙

【目录】
本期的 15 篇论文如下：
[00:25] 🧮 Soohak: A Mathematician-Curated Benchmark for Evaluating Research-level Math Capabilities of LLMs（Soohak：由数学家策划的基准测试，用于评估大语言模型的研究级数学能力）
[01:30] 🎨 Qwen-Image-2.0 Technical Report（Qwen-Image-2.0技术报告）
[02:23] 🎥 CollabVR: Collaborative Video Reasoning with Vision-Language and Video Generation Models（CollabVR：基于视觉语言与视频生成模型的协作式视频推理）
[03:08] 🧠 TMAS: Scaling Test-Time Compute via Multi-Agent Synergy（TMAS：通过多智能体协同扩展测试时计算）
[03:52] 📄 PaperFit: Vision-in-the-Loop Typesetting Optimization for Scientific Documents（PaperFit：面向科学文档的视觉在环排版优化）
[04:34] 📈 Model Merging Scaling Laws in Large Language Models（大语言模型中的模型合并缩放定律）
[05:19] 🧩 Geometry Conflict: Explaining and Controlling Forgetting in LLM Continual Post-Training（几何冲突：解释并控制大语言模型持续后训练中的遗忘现象）
[06:20] 🌍 WorldReasonBench: Human-Aligned Stress Testing of Video Generators as Future World-State Predictors（世界推理基准：作为未来世界状态预测器的视频生成器的人类对齐压力测试）
[07:12] 📊 Auto-Rubric as Reward: From Implicit Preferences to Explicit Multimodal Generative Criteria（自动评分标准作为奖励：从隐式偏好到显式多模态生成准则）
[08:03] 🤖 X-OmniClaw Technical Report: A Unified Mobile Agent for Multimodal Understanding and Interaction（X-OmniClaw技术报告：一种用于多模态理解与交互的统一移动智能体）
[08:51] 🧠 Memory-Efficient Looped Transformer: Decoupling Compute from Memory in Looped Language Models（内存高效的循环Transformer：在循环语言模型中解耦计算与内存）
[09:35] 🔄 SEIF: Self-Evolving Reinforcement Learning for Instruction Following（SEIF：面向指令跟随的自我进化强化学习）
[10:19] 🔄 Dynamic Skill Lifecycle Management for Agentic Reinforcement Learning（面向智能体强化学习的动态技能生命周期管理）
[11:10] 🎨 Pixal3D: Pixel-Aligned 3D Generation from Images（Pixal3D: 从图像进行像素对齐的三维生成）
[11:54] 🔄 Rebellious Student: Reversing Teacher Signals for Reasoning Exploration with Self-Distilled RLVR（叛逆学生：通过自蒸馏强化学习中的反向教师信号进行推理探索）
【关注我们】
您还可以在以下平台找到我们，获得播客内容以外更多信息
小红书: AI速递

2026.05.12 | 数学家闭门出题考倒大模型；生图模型千字提示精准成画

加入我们的 Discord

扫描微信二维码

播放列表