2026.05.12 | 数学家闭门出题考倒大模型;生图模型千字提示精准成画
HuggingFace 每日AI论文速递

2026.05.12 | 数学家闭门出题考倒大模型;生图模型千字提示精准成画

13分钟 66 1周前
节目简介
来源:小宇宙
【目录】
本期的 15 篇论文如下:
[00:25] 🧮 Soohak: A Mathematician-Curated Benchmark for Evaluating Research-level Math Capabilities of LLMs(Soohak:由数学家策划的基准测试,用于评估大语言模型的研究级数学能力)
[01:30] 🎨 Qwen-Image-2.0 Technical Report(Qwen-Image-2.0技术报告)
[02:23] 🎥 CollabVR: Collaborative Video Reasoning with Vision-Language and Video Generation Models(CollabVR:基于视觉语言与视频生成模型的协作式视频推理)
[03:08] 🧠 TMAS: Scaling Test-Time Compute via Multi-Agent Synergy(TMAS:通过多智能体协同扩展测试时计算)
[03:52] 📄 PaperFit: Vision-in-the-Loop Typesetting Optimization for Scientific Documents(PaperFit:面向科学文档的视觉在环排版优化)
[04:34] 📈 Model Merging Scaling Laws in Large Language Models(大语言模型中的模型合并缩放定律)
[05:19] 🧩 Geometry Conflict: Explaining and Controlling Forgetting in LLM Continual Post-Training(几何冲突:解释并控制大语言模型持续后训练中的遗忘现象)
[06:20] 🌍 WorldReasonBench: Human-Aligned Stress Testing of Video Generators as Future World-State Predictors(世界推理基准:作为未来世界状态预测器的视频生成器的人类对齐压力测试)
[07:12] 📊 Auto-Rubric as Reward: From Implicit Preferences to Explicit Multimodal Generative Criteria(自动评分标准作为奖励:从隐式偏好到显式多模态生成准则)
[08:03] 🤖 X-OmniClaw Technical Report: A Unified Mobile Agent for Multimodal Understanding and Interaction(X-OmniClaw技术报告:一种用于多模态理解与交互的统一移动智能体)
[08:51] 🧠 Memory-Efficient Looped Transformer: Decoupling Compute from Memory in Looped Language Models(内存高效的循环Transformer:在循环语言模型中解耦计算与内存)
[09:35] 🔄 SEIF: Self-Evolving Reinforcement Learning for Instruction Following(SEIF:面向指令跟随的自我进化强化学习)
[10:19] 🔄 Dynamic Skill Lifecycle Management for Agentic Reinforcement Learning(面向智能体强化学习的动态技能生命周期管理)
[11:10] 🎨 Pixal3D: Pixel-Aligned 3D Generation from Images(Pixal3D: 从图像进行像素对齐的三维生成)
[11:54] 🔄 Rebellious Student: Reversing Teacher Signals for Reasoning Exploration with Self-Distilled RLVR(叛逆学生:通过自蒸馏强化学习中的反向教师信号进行推理探索)
【关注我们】
您还可以在以下平台找到我们,获得播客内容以外更多信息
小红书: AI速递

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧