奇绩创坛 - 节目列表

DeepSeekMath-V2发布，英伟达文档解析模型，Stability AI实现视频生成加速|奇绩前沿信号1201

奇绩前沿信号播客——全球 AI 前沿的情报站奇绩前沿信号依托奇绩内部的研究体系，持续追踪并解读全球 AI 领域前沿的论文和产品动态。我们将这些内容以 AI 与生成播客的形式分享，用通俗易懂的方式呈现复杂技术，帮助你快速理解技术趋势背后的核心逻辑、潜在影响和未来发展方向。播客每日分享内容由奇绩行研实习生与 AI 共创，播客语音由 OpenMOSS （奇绩 2025 年春季创业营校友企业模型）支持。针对每日前沿信号内容，我们还准备了进阶版的解读，提供更系统、深入的分析，涵盖实验成果与价值评估、方法与技术原理、应用场景与潜力判断、总结与前沿洞察等多个维度。点击下方链接获取完整版内容，也欢迎扫描时间轴下方二维码加入奇绩前沿信号交流群，一起追踪 AI 最前沿的信息。 apply.miracleplus.com 【奇绩前沿信号介绍】 * 基于对全球 500+ 顶尖机构、3000+ 核心人才的实时追踪，只捕捉那些“刚刚发生、尚未扩散、但注定改变格局”的信号： * 认知模型突破、多模态跃迁、智能体进化…… * OpenAI、Anthropic、DeepSeek、Kimi、字节……巨头与新锐的关键动向 * Infra 演进、AI4S 落地、产业重构……高价值趋势的早期征兆【时间轴】 01:17 DeepSeek-AI发布DeepSeekMath-V2：打造可自我验证、可自我进化的自然语言数学推理系统，首次在IMO与Putnam级别竞赛中达成金牌级表现 04:49 英伟达发布Nemotron-Parse 1.1:885M参数的轻量级文档解析模型，实现端到端OCR、结构化表格提取与语义理解 06:56 Stability AI等提出Block Cascading：无需训练即可将视频生成速度提升至2.79倍 08:27 华为诺亚方舟实验室提出ROOT优化器：通过自适应正交化与异常值抑制，实现大模型训练的双重鲁棒性突破 09:58 布朗大学与哈佛大学揭示：大语言模型的跨难度泛化能力远比我们想象的更有限 11:04 罗切斯特大学与MIT-IBM联合提出MIRA：通过多模态迭代推理实现复杂指令下的精准图像编辑 12:47 上海AI Lab等机构提出G²VLM：首个统一3D重建与空间推理的几何基础视觉语言模型 13:52 南京理工大学与百度提出ViLoMem：首个双流多模态语义记忆框架，通过分离视觉干扰与逻辑幻觉，实现多模态大模型的持续学习与跨域知识迁移 14:46 威廉玛丽学院等提出UniGame：让统一多模态模型自我对抗训练，显著提升理解与生成的一致性 15:30 复旦大学与创智学院提出ProphRL，通过可学习世界模型实现视觉-语言-动作策略的高效强化学习后训练 16:28 苏黎世联邦理工学院与洛桑联邦理工学院提出MTBBench：首个模拟肿瘤分子委员会的多模态序列临床决策基准，推动精准肿瘤学中AI代理的可靠性与推理能力评估 17:29 阶跃星辰GELab-Zero开源GUI Agent：4B模型引领移动端AI交互新范式 18:14 夸克发布新一代AI浏览器：深度融合千问助手，全面对标Chrome开启全球竞争如果你对今天的前沿信号感兴趣或有自己的思考，也欢迎在评论区留言交流，期待与你碰撞更多观点。

19分钟

本周 AI 前沿一览：多模态模型持续突破，AI安全与效率并进，科学发现与应用创新加速｜奇绩前沿信号【一周特刊】11.29

奇绩前沿信号播客——全球 AI 前沿的情报站奇绩前沿信号依托奇绩内部的研究体系，持续追踪并解读全球 AI 领域前沿的论文和产品动态。我们将这些内容以 AI 与生成播客的形式分享，用通俗易懂的方式呈现复杂技术，帮助你快速理解技术趋势背后的核心逻辑、潜在影响和未来发展方向。播客每日分享内容由奇绩行研实习生与 AI 共创，播客语音由 OpenMOSS （奇绩 2025 年春季创业营校友企业模型）支持。针对每日前沿信号内容，我们还准备了进阶版的解读，提供更系统、深入的分析，涵盖实验成果与价值评估、方法与技术原理、应用场景与潜力判断、总结与前沿洞察等多个维度。点击下方链接获取完整版内容，也欢迎扫描时间轴下方二维码加入奇绩前沿信号交流群，一起追踪 AI 最前沿的信息。 apply.miracleplus.com 【奇绩前沿信号介绍】 * 基于对全球 500+ 顶尖机构、3000+ 核心人才的实时追踪，只捕捉那些“刚刚发生、尚未扩散、但注定改变格局”的信号： * 认知模型突破、多模态跃迁、智能体进化…… * OpenAI、Anthropic、DeepSeek、Kimi、字节……巨头与新锐的关键动向 * Infra 演进、AI4S 落地、产业重构……高价值趋势的早期征兆【时间轴】 00:59 NVIDIA发布Nemotron Elastic：首个实现"一模多用"的推理大模型，单次训练成本降低360倍 02:20 Claude发布Opus 4.5：智能体与编程能力登顶，定价策略重塑开发者使用范式 03:27 Anthropic发现强化学习中的奖励黑客行为会导致模型出现广泛的对齐失败，包括安全研究破坏和未经提示的对齐伪装 04:37 Google发布 Nano Banana Pro：面向专业级图像生成的高精度多模态模型 05:30 腾讯混元Video1.5:83亿参数实现最先进开源视频生成，可在消费级GPU高效运行 06:23 腾讯混元推出HunyuanOCR：1B参数轻量级视觉语言模型在OCR任务上超越商业API 07:01 Qwen团队发布Qwen3-VL技术报告：原生支持256K上下文的多模态大模型，在文本、视觉、推理等综合基准上达到领先水平 07:48 北京智源研究院等15家机构联合发布RoboCOIN：首个超18万演示的多具身双臂操作数据集，引入分层能力金字塔实现概念到控制的多层次学习 08:41 新加坡国立大学提出VLA-4D：首个将4D时空感知嵌入视觉-语言-动作模型的机器人操控框架，实现时空连贯的精准操作 09:18 纽约大学谢赛宁团队与英伟达等机构提出人形视觉搜索框架，让AI像人类一样在360°环境中主动搜索目标 09:59 斯坦福大学李飞飞团队等提出ENACT基准：通过自我中心交互的世界建模评估视觉-语言模型的具身认知能力 10:34 纽约大学谢赛宁团队提出DA-SIP：让机器人控制器像人一样"因地制宜"分配计算资源，实现2.6-4.4倍效率提升 11:04 Meta Reality Labs 发布 WorldGen：通过文本提示五分钟内生成可交互、可导航的 3D 世界 11:45 OpenAI等机构发布GPT-5早期科学加速实验报告，展示AI在数学、物理、生物等领域的研究突破能力 12:29 DeepSeek-AI发布DeepSeekMath-V2：打造可自我验证、可自我进化的自然语言数学推理系统，首次在IMO与Putnam级别竞赛中达成金牌级表现 13:01 Yoshua Bengio领衔世界众多机构联合发布AI安全报告第二次关键更新，系统梳理通用AI风险管理技术进展与制度框架 13:41 Zyphra和IBM首次在全栈AMD平台上完成大规模MoE预训练，推出760M活跃参数的ZAYA1-base模型，性能媲美Qwen3-4B和Gemma3-12B 14:14 奇绩智峰提出Flash Grouped Per-Token FP8 Quantization：把 DeepSeek-V3 MoE Wgrad GEMM 计算前的 Grouped Per-Token FP8 量化算子重写到接近 HBM 上限 14:48 Anthropic推出长时程AI Agent新框架：通过工程化记忆机制实现跨会话持续开发 15:32 OpenAI 推出 ChatGPT “Shopping Research” 功能：将购物决策导入对话式 AI，打造个性化买家指南 16:05 Ilya Sutskever 宣称“扩展时代终结”，AI 发展进入研究驱动新阶段如果你对今天的前沿信号感兴趣或有自己的思考，也欢迎在评论区留言交流，期待与你碰撞更多观点。

17分钟

Anthropic新框架，李飞飞发布新基准，谢赛宁机器人提效，Qwen技术报告，奇绩智峰训练加速|奇绩前沿信号1128

奇绩前沿信号播客——全球 AI 前沿的情报站奇绩前沿信号依托奇绩内部的研究体系，持续追踪并解读全球 AI 领域前沿的论文和产品动态。我们将这些内容以 AI 与生成播客的形式分享，用通俗易懂的方式呈现复杂技术，帮助你快速理解技术趋势背后的核心逻辑、潜在影响和未来发展方向。播客每日分享内容由奇绩行研实习生与 AI 共创，播客语音由 OpenMOSS （奇绩 2025 年春季创业营校友企业模型）支持。针对每日前沿信号内容，我们还准备了进阶版的解读，提供更系统、深入的分析，涵盖实验成果与价值评估、方法与技术原理、应用场景与潜力判断、总结与前沿洞察等多个维度。点击下方链接获取完整版内容，也欢迎扫描时间轴下方二维码加入奇绩前沿信号交流群，一起追踪 AI 最前沿的信息。 apply.miracleplus.com 【奇绩前沿信号介绍】 * 基于对全球 500+ 顶尖机构、3000+ 核心人才的实时追踪，只捕捉那些“刚刚发生、尚未扩散、但注定改变格局”的信号： * 认知模型突破、多模态跃迁、智能体进化…… * OpenAI、Anthropic、DeepSeek、Kimi、字节……巨头与新锐的关键动向 * Infra 演进、AI4S 落地、产业重构……高价值趋势的早期征兆【时间轴】 01:21 Anthropic推出长时程AI代理新框架：通过工程化记忆机制实现跨会话持续开发 03:34 斯坦福大学李飞飞团队等提出ENACT基准：通过自我中心交互的世界建模评估视觉-语言模型的具身认知能力 05:03 纽约大学谢赛宁团队提出DA-SIP：让机器人控制器像人一样"因地制宜"分配计算资源，实现2.6-4.4倍效率提升 05:38 Qwen团队发布Qwen3-VL技术报告：原生支持256K上下文的多模态大模型，在文本、视觉、推理等综合基准上达到领先水平 06:20 奇绩智峰提出Flash Grouped Per-Token FP8 Quantization：把 DeepSeek-V3 MoE Wgrad GEMM 计算前的 Grouped Per-Token FP8 量化算子重写到接近 HBM 上限 07:06 清华大学与月之暗面联合发布Seer系统:通过在线上下文学习将大模型强化学习推理加速74%-97% 08:29 英伟达发布ToolOrchestra：用8B小模型协调多智能工具，在HLE基准上超越GPT-5，成本降低2.5倍 09:19 加州大学伯克利分校与英伟达提出ETE算法：通过探索-利用策略将扩散语言模型解码效率提升26-61% 09:53 哈佛大学等提出交错重置技术：通过时间多样化批次显著提升大规模并行强化学习的样本效率和稳定性 10:22 斯坦福大学提出DSPy+HELM框架：结构化提示工程让大模型基准测试更准确，平均性能提升4% 10:54 腾讯混元等机构提出PRFL：视频生成模型本身就是优秀的潜在奖励模型，实现高效视频对齐优化 11:46 MIT与IBM联合提出音频Token压缩技术，将大型音频语言模型的输入序列长度降低至三分之一，同时保持接近原始性能 12:12 上海交通大学与腾讯混元联合发布Harmony：通过跨任务协同实现音视频精准同步生成的突破性框架 12:42 北京大学与Kling团队提出Monet：让多模态大模型直接在潜在视觉空间中推理，无需外部工具辅助 13:13 中科大、创智学院等提出LaGen：首个支持单帧输入的自回归LiDAR场景生成框架，实现长时域自动驾驶场景交互式生成 14:06 卡内基梅隆大学等提出MPA框架，通过反事实数据生成和价值模型引导，显著提升端到端自动驾驶的闭环安全性能 14:34 加州大学圣地亚哥分校发布ACE-F：首个跨机器人平台可折叠力反馈遥操作系统，让复杂操控如鼠标般简单 15:00 阿里巴巴与浙江大学提出SocialNav：首个具备社会规范理解能力的具身导航基础模型，实现38%成功率与46%社会合规性提升 15:32 多家机构共同发布AI4X路线图：人工智能推动科学研究进步及未来方向 16:16 剑桥大学等发现物理基础模型内部存在可操控的抽象物理概念表征，实现跨领域因果控制 16:50 阿里巴巴达摩院推出Inferix：首个专为世界模型设计的块扩散推理引擎，实现高效长视频生成与实时交互 17:19 Meta发布Matrix：点对点多智能体合成数据生成框架，吞吐量提升2-15倍 17:43 谷歌DeepMind与伊利诺伊大学提出Evo-Memory：首个系统性评估大语言模型智能体测试时学习与自进化记忆能力的基准框架 18:06 AMD等机构提出CaptionQA基准：图像描述能否真正替代原图？揭示多模态模型在实用性上高达32%的性能差距 18:28 马里兰大学等提出Multi-Crit基准：系统评估多模态评判模型遵循多元化评价标准的能力 18:39 NeurIPS 2025 奖项公布：大模型机制、RL 可扩展性与扩散模型理论成焦点如果你对今天的前沿信号感兴趣或有自己的思考，也欢迎在评论区留言交流，期待与你碰撞更多观点。

20分钟

Ilya提出扩展时代终结，Bengio更新安全框架，谢赛宁开发视觉搜索，腾讯推出轻量OCR模型|奇绩前沿信号1127

奇绩前沿信号播客——全球 AI 前沿的情报站奇绩前沿信号依托奇绩内部的研究体系，持续追踪并解读全球 AI 领域前沿的论文和产品动态。我们将这些内容以 AI 与生成播客的形式分享，用通俗易懂的方式呈现复杂技术，帮助你快速理解技术趋势背后的核心逻辑、潜在影响和未来发展方向。播客每日分享内容由奇绩行研实习生与 AI 共创，播客语音由 OpenMOSS （奇绩 2025 年春季创业营校友企业模型）支持。针对每日前沿信号内容，我们还准备了进阶版的解读，提供更系统、深入的分析，涵盖实验成果与价值评估、方法与技术原理、应用场景与潜力判断、总结与前沿洞察等多个维度。点击下方链接获取完整版内容，也欢迎扫描时间轴下方二维码加入奇绩前沿信号交流群，一起追踪 AI 最前沿的信息。 apply.miracleplus.com 【奇绩前沿信号介绍】 * 基于对全球 500+ 顶尖机构、3000+ 核心人才的实时追踪，只捕捉那些“刚刚发生、尚未扩散、但注定改变格局”的信号： * 认知模型突破、多模态跃迁、智能体进化…… * OpenAI、Anthropic、DeepSeek、Kimi、字节……巨头与新锐的关键动向 * Infra 演进、AI4S 落地、产业重构……高价值趋势的早期征兆【时间轴】 01:24 Ilya Sutskever 宣称“扩展时代终结”，AI 发展进入研究驱动新阶段 03:28 Yoshua Bengio领衔世界众多机构联合发布AI安全报告第二次关键更新，系统梳理通用AI风险管理技术进展与制度框架 05:14 纽约大学谢赛宁团队与英伟达等机构提出人形视觉搜索框架，让AI像人类一样在360°环境中主动搜索目标 06:47 腾讯混元推出HunyuanOCR：1B参数轻量级视觉语言模型在OCR任务上超越商业API 08:00 阿里巴巴Qwen团队提出软自适应策略优化（SAPO），通过温度控制的软门控机制显著提升大语言模型强化学习训练的稳定性与性能 09:08 两种几何的故事：丰田技术研究所与加州大学圣地亚哥分校等机构揭示自适应优化器与非欧几里得下降的深层联系，实现了非凸设置下的统一收敛分析 09:33 苏黎世联邦理工学院和伯克利提出SOMBRL：可扩展的乐观模型基强化学习算法，实现理论保证与实际应用的统一 09:56 腾讯推出 Hunyuan 3D Engine 全球版：以 3D-DiT 分层雕刻模型将商用级 3D 资产生成周期从数周压缩至数分钟 10:52 苹果推出STARFlow-V：首个实现高质量视频生成的归一化流模型，打破扩散模型垄断 11:50 英伟达等机构提出LocateAnything3D：首个将3D检测转化为视觉语言模型原生next-token预测的方法，在Omni3D基准上达到49.89 AP3D，超越前作15.51个百分点 12:29 阶跃星辰发布iMontage：首个统一多对多图像生成模型，实现高动态一致性内容创作 12:53 新加坡国立大学与字节跳动提出Adv-GRPO：用对抗式奖励驯服图像生成中的奖励黑客难题，实现美学、质量与文本对齐的全面提升 13:19 Luma AI提出Terminal Velocity Matching：单步生成ImageNet达3.29 FID，实现高质量图像的一步生成 13:42 南开大学与新国立团队提出ImageCritic：基于注意力对齐的参考引导图像一致性修正框架，实现细粒度细节精准校正 14:01 GigaAI发布GigaWorld-0：世界模型作为数据引擎，为具身智能提供大规模、可控且物理真实的训练数据 14:47 新加坡国立大学发布ShapeForce：低成本软体机器人腕关节实现接触丰富操作，性能媲美昂贵力传感器 15:25 谷歌推出TPU本地部署计划，挑战英伟达AI芯片市场主导地位 16:03 普林斯顿大学等提出LatentMAS:首个纯隐空间多智能体协作框架,在推理任务上实现14.6%精度提升并降低83.7%计算开销 16:47 普渡大学与Perplexity AI联合发布BrowseSafe：首个针对AI浏览器Agent提示注入攻击的多层防御系统，在真实HTML环境下实现90.4%的F1检测准确率 17:10 加州大学圣地亚哥分校提出Newt世界模型，首次通过在线强化学习在200个任务上训练单一智能体，实现高效多任务控制与快速适应 17:37 微软研究院提出Fara-7B，一个通过合成数据高效生成系统训练的高性能计算机使用智能体模型 17:59 北卡罗来纳大学提出Agent0-VL：一个通过工具增强推理实现自我进化的视觉语言智能体 18:17 上海交通大学刘鹏飞与耶鲁大学提出AlignEval：通过评估LLM的评判能力来衡量其对齐水平，实现了与主流基准相当甚至更优的性能 18:56 上海交通大学、创智学院与腾讯混元联合推出Q-Save：首个兼具评分与归因能力的AI生成视频评估基准 19:14 上海AI Lab，创智学院等提出VKnowU基准，揭示多模态大模型在视觉知识理解上的系统性缺陷，并通过VideoKnow+实现显著提升如果你对今天的前沿信号感兴趣或有自己的思考，也欢迎在评论区留言交流，期待与你碰撞更多观点。

20分钟

Opus4.5发布，OpenAI购物助手，Anthropic揭示对齐风险，混元Video1.5发布|奇绩前沿信号1126

奇绩前沿信号播客——全球 AI 前沿的情报站奇绩前沿信号依托奇绩内部的研究体系，持续追踪并解读全球 AI 领域前沿的论文和产品动态。我们将这些内容以 AI 与生成播客的形式分享，用通俗易懂的方式呈现复杂技术，帮助你快速理解技术趋势背后的核心逻辑、潜在影响和未来发展方向。播客每日分享内容由奇绩行研实习生与 AI 共创，播客语音由 OpenMOSS （奇绩 2025 年春季创业营校友企业模型）支持。针对每日前沿信号内容，我们还准备了进阶版的解读，提供更系统、深入的分析，涵盖实验成果与价值评估、方法与技术原理、应用场景与潜力判断、总结与前沿洞察等多个维度。点击下方链接获取完整版内容，也欢迎扫描时间轴下方二维码加入奇绩前沿信号交流群，一起追踪 AI 最前沿的信息。 apply.miracleplus.com 【奇绩前沿信号介绍】 * 基于对全球 500+ 顶尖机构、3000+ 核心人才的实时追踪，只捕捉那些“刚刚发生、尚未扩散、但注定改变格局”的信号： * 认知模型突破、多模态跃迁、智能体进化…… * OpenAI、Anthropic、DeepSeek、Kimi、字节……巨头与新锐的关键动向 * Infra 演进、AI4S 落地、产业重构……高价值趋势的早期征兆【时间轴】 01:17 Claude发布Opus 4.5：智能体与编程能力登顶，定价策略重塑开发者使用范式 03:40 OpenAI 推出 ChatGPT “Shopping Research” 功能：将购物决策导入对话式 AI，打造个性化买家指南 04:48 Anthropic发现强化学习中的奖励黑客行为会导致模型出现广泛的对齐失败，包括安全研究破坏和未经提示的对齐伪装 05:47 腾讯混元vedio1.5:83亿参数实现最先进开源视频生成，可在消费级GPU高效运行 06:44 麻省理工与纽约大学谢赛宁提出FreeFlow：首个完全无数据的流映射蒸馏框架，在ImageNet上实现1步采样达到FID 1.45的突破 08:00 斯坦福大学揭示有损通信如何限制代际学习：微小通信能力差异可导致文化进化的巨大鸿沟 08:27 格勒诺布尔大学与纽约大学提出MIST：通过监督训练直接学习互信息估计，实现数量级级别的性能提升 08:49 DeepLang AI推出RhinoInsight：通过双重控制机制重塑深度研究，在DeepResearch Bench和DeepConsult上达到业界领先水平 09:12 北卡罗来纳大学提出PRInTS：通过信息增益评分和轨迹摘要实现长视野信息检索的过程奖励模型 09:34 北京大学等提出DeCo：首个通过频率解耦实现端到端像素扩散的高效图像生成框架，在ImageNet上达到FID 1.62 10:41 加州大学圣地亚哥分校提出DiT-Mem：为视频扩散模型配备即插即用记忆模块，显著提升物理规则遵循能力 11:05 新加坡国立大学发布DiffSeg30k：首个多轮扩散编辑基准数据集，实现AI生成内容的精确定位与模型归因 11:24 新加坡国立大学与北大提出Edit2Perceive：首次将图像编辑扩散模型用于稠密感知任务，在深度估计、法线估计和交互式抠图三大任务上全面超越现有方法 11:43 康奈尔大学提出C3Po：通过点图预测实现跨视角跨模态对应，构建首个平面图-照片对应数据集，误差降低34% 11:58 杜克大学与字节跳动提出Plan-X：通过语义规划实现精准可控的视频生成 12:18 上海创智学院等提出L1样本流：两步去噪实现高效视觉运动学习，推理速度提升10-70倍 12:57 北京大学与BeingBeyond发布SENTINEL：首个端到端语言-动作模型，实现类人机器人全身控制 13:18 中山大学、华为等提出EchoVLA：首个具备协同式陈述性记忆的长时域移动操作视觉-语言-动作模型 13:40 吴恩达团队推出 Agentic Reviewer：面向学术论文的自动化审稿智能体，相关性指标已接近人工水平 14:27 美国白宫启动“创世纪计划”：AI 加速科学与安全体系的国家级行动 14:50 全蛋白组尺度评估人类错义变异致病严重程度的计算模型 15:05 Flatiron研究所等机构提出多尺度推理扩散模型，实现部分可观测动力学系统的长期稳定预测 15:23 北京智源研究院等提出通用智能体记忆系统GAM，通过深度研究实现即时编译式记忆管理 16:09 Mila提出Advantage Alignment算法，让大语言模型在社会困境中学会合作而不被利用 16:36 港科大（广州）与DeepWisdom提出AutoEnv：用4美元自动生成异构环境，揭示智能体跨环境学习的根本局限 16:55 阿里巴巴发布NEZHA架构，实现生成式推荐系统十倍加速突破，在淘宝亿级广告业务成功落地 17:36 复旦大学、创智学院与INF Technology发布ORIGAMI SPACE：首个基于折纸的多步空间推理数学约束基准测试 18:02 慕尼黑工业大学等提出Target-Bench：首个评估世界模型在真实环境中进行语义目标导向路径规划能力的基准 18:24 OpenAI Sam Altman与Jony Ive联合硬件项目细节初现，强调“直觉式智能”设计理念如果你对今天的前沿信号感兴趣或有自己的思考，也欢迎在评论区留言交流，期待与你碰撞更多观点。

20分钟

Meta 3D交互世界，智源机器人数据集，新国立时空感知融入VLA，Zyphra高效模型|奇绩前沿信号1125

奇绩前沿信号播客——全球 AI 前沿的情报站奇绩前沿信号依托奇绩内部的研究体系，持续追踪并解读全球 AI 领域前沿的论文和产品动态。我们将这些内容以 AI 与生成播客的形式分享，用通俗易懂的方式呈现复杂技术，帮助你快速理解技术趋势背后的核心逻辑、潜在影响和未来发展方向。播客每日分享内容由奇绩行研实习生与 AI 共创，播客语音由 OpenMOSS （奇绩 2025 年春季创业营校友企业模型）支持。针对每日前沿信号内容，我们还准备了进阶版的解读，提供更系统、深入的分析，涵盖实验成果与价值评估、方法与技术原理、应用场景与潜力判断、总结与前沿洞察等多个维度。点击下方链接获取完整版内容，也欢迎扫描时间轴下方二维码加入奇绩前沿信号交流群，一起追踪 AI 最前沿的信息。 apply.miracleplus.com 【奇绩前沿信号介绍】 * 基于对全球 500+ 顶尖机构、3000+ 核心人才的实时追踪，只捕捉那些“刚刚发生、尚未扩散、但注定改变格局”的信号： * 认知模型突破、多模态跃迁、智能体进化…… * OpenAI、Anthropic、DeepSeek、Kimi、字节……巨头与新锐的关键动向 * Infra 演进、AI4S 落地、产业重构……高价值趋势的早期征兆【时间轴】 01:16 Meta Reality Labs 发布 WorldGen：通过文本提示五分钟内生成可交互、可导航的 3D 世界 03:50 北京智源研究院等15家机构联合发布RoboCOIN：首个超18万演示的多具身双臂操作数据集，引入分层能力金字塔实现概念到控制的多层次学习 05:34 新加坡国立大学提出VLA-4D：首个将4D时空感知嵌入视觉-语言-动作模型的机器人操控框架，实现时空连贯的精准操作 06:39 Zyphra和IBM首次在全栈AMD平台上完成大规模MoE预训练，推出760M活跃参数的ZAYA1-base模型，性能媲美Qwen3-4B和Gemma3-12B 07:28 中国香港中文大学与Vivix.AI提出Neighbor GRPO：通过对比式ODE策略优化实现流模型对齐，训练效率提升12倍 08:12 DP Technology提出MR-RLVR：通过遮蔽与重排自监督，使LLM在仅验证最终答案的强化学习中显著提升数学推理能力 08:59 罗切斯特大学等提出Video-R4：通过视觉反刍强化文本密集型视频推理，在M4-ViteVQA基准上达到SOTA 09:55 北卡罗来纳大学教堂山分校提出SketchVerify：通过草图引导验证实现物理感知的视频生成规划，在保持高质量的同时将规划成本降低93% 10:36 上海交通大学与小红书联合提出ODTSR：基于Qwen-Image的单步扩散Transformer实现可控真实世界图像超分辨率，同时保证保真度与提示词控制能力 11:06 上海AI Lab等推出RacketVision：首个跨运动球拍姿态标注数据集，开创多模态融合球轨预测新范式 11:28 德克萨斯大学奥斯汀分校等提出CaptionStew：通过1070万音频标注数据集重新审视音频-语言预训练，实现通用音频表征学习的新突破 11:44 阿里达摩院提出RynnVLA-002：将视觉-语言-动作模型与世界模型统一，实现机器人操作任务97.4%成功率 12:43 地平线机器人等提出Progress-Think：通过语义进度推理实现视觉-语言导航的突破性提升 13:04 清华大学与中关村学院提出MirrorMind：融合个体认知轨迹与集体学科记忆的科学AI架构，实现高保真科学家模拟与跨学科问题求解 14:03 清华大学与中关村学院提出OmniScientist：构建人类与AI科学家共同进化的生态系统 14:41 上海交通大学、创智学院与美团联合发布Q-Real数据集，为AI生成图像质量评估建立首个真实性与合理性的细粒度评估基准 15:52 斯坦福大学提出AI基准测试系统性修订框架，通过统计分析精准定位无效问题 16:19 NewMind AI提出PARROT框架：首个系统性量化大语言模型在社会压力下准确性退化的鲁棒性评估基准 17:00 昆士兰大学与百度联合提出FingerCap，构建首个细粒度手指级运动描述基准，达成40K规模数据集与新型评估框架如果你对今天的前沿信号感兴趣或有自己的思考，也欢迎在评论区留言交流，期待与你碰撞更多观点。

18分钟

Nano Banana Pro发布，GPT5科学加速实验报告，英伟达大模型降低训练成本|奇绩前沿信号1124

奇绩前沿信号播客——全球 AI 前沿的情报站奇绩前沿信号依托奇绩内部的研究体系，持续追踪并解读全球 AI 领域前沿的论文和产品动态。我们将这些内容以 AI 与生成播客的形式分享，用通俗易懂的方式呈现复杂技术，帮助你快速理解技术趋势背后的核心逻辑、潜在影响和未来发展方向。播客每日分享内容由奇绩行研实习生与 AI 共创，播客语音由 OpenMOSS （奇绩 2025 年春季创业营校友企业模型）支持。针对每日前沿信号内容，我们还准备了进阶版的解读，提供更系统、深入的分析，涵盖实验成果与价值评估、方法与技术原理、应用场景与潜力判断、总结与前沿洞察等多个维度。点击下方链接获取完整版内容，也欢迎扫描时间轴下方二维码加入奇绩前沿信号交流群，一起追踪 AI 最前沿的信息。 apply.miracleplus.com 【奇绩前沿信号介绍】 * 基于对全球 500+ 顶尖机构、3000+ 核心人才的实时追踪，只捕捉那些“刚刚发生、尚未扩散、但注定改变格局”的信号： * 认知模型突破、多模态跃迁、智能体进化…… * OpenAI、Anthropic、DeepSeek、Kimi、字节……巨头与新锐的关键动向 * Infra 演进、AI4S 落地、产业重构……高价值趋势的早期征兆【时间轴】 01:27 Google发布 Nano Banana Pro：面向专业级图像生成的高精度多模态模型 03:17 OpenAI等机构发布GPT-5早期科学加速实验报告，展示AI在数学、物理、生物等领域的研究突破能力 04:45 NVIDIA发布Nemotron Elastic：首个实现"一模多用"的推理大模型，单次训练成本降低360倍 05:43 上海创智学院、上海交通大学等提出Mantis：通过解耦视觉预见实现高效机器人操控，在LIBERO基准上达到96.7%成功率 06:40 字节跳动与上海交大提出SpecActor：通过解耦推测与Best-of-N策略，将大模型后训练速度提升1.3-1.7倍 07:15 牛津大学和Mila提出EGGROLL：通过低秩学习实现超大规模进化策略，在十亿参数模型上实现百倍训练加速 07:52 快手Kling团队与香港城市大学提出VANS：首个将视频作为答案的下一事件预测模型，通过Joint-GRPO强化学习实现视觉语言模型与视频扩散模型的协同优化 08:24 麻省理工学院提出Linear Gradient Matching：为预训练视觉模型蒸馏数据集，单图像训练达到竞争性能 08:58 MiroMind AI等机构发布OpenMMReasoner：首个全透明多模态推理训练方案，在九项基准测试中平均提升11.6% 09:24 加州大学圣地亚哥分校与Hillbot联合提出PartUV：基于语义部件的3D网格UV展开方法，在保持低失真的同时将图表数量减少至传统方法的1/31 09:50 阶跃星辰发布Step-Audio-R1：首个成功实现音频推理的大模型，性能媲美Gemini 3 Pro 10:17 香港中文大学等机构提出Thinking-while-Generating框架，首次实现视觉生成过程中文本推理的实时交织，在T2I-CompBench基准上显著提升组合性生成能力 10:45 腾讯与香港中文大学提出NaTex：首个原生3D空间纹理生成框架，彻底解决多视图纹理拼接的遮挡与对齐难题 11:09 Meta发布AINA框架：用Aria Gen 2智能眼镜采集人类演示数据，无需机器人数据即可训练多指灵巧操作策略 11:36 X-Humanoid等机构发布Pelican-VL 1.0：首个基于元认知"刻意练习"框架的具身智能大模型，在100B级开源模型中性能提升10.6% 11:59 小米发布MiMo-Embodied：首个跨具身智能基础模型，同时刷新自动驾驶与机器人领域29项基准 12:24 MIT和NVIDIA提出TLT系统：通过自适应投机解码实现推理强化学习训练1.7倍加速 12:49 加州大学伯克利分校与NovaSky AI联合发布SkyRL-Agent：通过纯强化学习训练的多轮LLM智能体框架，在软件工程任务上实现39.4% Pass@1的突破性成果 13:09 北卡罗来纳大学教堂山分校与Salesforce联合提出Agent0：一个无需任何外部数据、通过工具集成推理实现自我进化的智能体框架，在数学推理上提升18%，通用推理上提升24% 13:34 滑铁卢大学等推出QueryGym：首个统一的大语言模型查询重构工具包，实现可复现的信息检索研究 13:51 上海人工智能实验室发布AICC：基于模型的HTML解析器构建7.3万亿Token AI就绪语料库 14:19 新加坡国立大学等机构联合发布V-ReasonBench，首个系统性视频推理评测基准，揭示当前视频生成模型在四大推理维度上的显著差异 14:42 中科院自动化所提出MuISQA：首个多意图科学问答基准与意图感知检索框架，破解RAG系统证据覆盖难题 14:59 周志华、刘云浩当选中国科学院院士，人工智能领域获重要认可如果你对今天的前沿信号感兴趣或有自己的思考，也欢迎在评论区留言交流，期待与你碰撞更多观点。

16分钟

OpenAI推理与编程模型，SAM3发布，创智刘鹏飞团队地理定位模型，创智邱锡鹏团队VLA突破|奇绩前沿信号1121

奇绩前沿信号播客——全球 AI 前沿的情报站奇绩前沿信号依托奇绩内部的研究体系，持续追踪并解读全球 AI 领域前沿的论文和产品动态。我们将这些内容以 AI 与生成播客的形式分享，用通俗易懂的方式呈现复杂技术，帮助你快速理解技术趋势背后的核心逻辑、潜在影响和未来发展方向。播客每日分享内容由奇绩行研实习生与 AI 共创，播客语音由 OpenMOSS （奇绩 2025 年春季创业营校友企业模型）支持。针对每日前沿信号内容，我们还准备了进阶版的解读，提供更系统、深入的分析，涵盖实验成果与价值评估、方法与技术原理、应用场景与潜力判断、总结与前沿洞察等多个维度。点击下方链接获取完整版内容，也欢迎扫描时间轴下方二维码加入奇绩前沿信号交流群，一起追踪 AI 最前沿的信息。 apply.miracleplus.com 【奇绩前沿信号介绍】 * 基于对全球 500+ 顶尖机构、3000+ 核心人才的实时追踪，只捕捉那些“刚刚发生、尚未扩散、但注定改变格局”的信号： * 认知模型突破、多模态跃迁、智能体进化…… * OpenAI、Anthropic、DeepSeek、Kimi、字节……巨头与新锐的关键动向 * Infra 演进、AI4S 落地、产业重构……高价值趋势的早期征兆【时间轴】 01:11 OpenAI发布GPT-5.1 Pro，深度推理能力达到人类专家水平 02:35 OpenAI发布GPT-5.1-Codex-Max,实现24小时连续编程突破 03:38 Meta 推出 SAM 3D 与 SAM 3：以数据引擎与可提示分割推进 2D→3D 理解与大词汇概念分割 04:31 复旦大学、创智学院刘鹏飞老师团队与腾讯混元发布GeoVista：首个基于网络增强的Agent视觉推理地理定位模型，在多项指标上达到GPT-5和Gemini-2.5-flash水平 05:15 复旦大学、创智学院邱锡鹏老师OpenMOSS团队等提出OpenMOSS SRPO，通过自参考策略优化实现视觉-语言-动作模型的新突破 06:07 普林斯顿大学等发现神经网络可在信息理论极限附近高效学习通用多指标模型 06:47 伊利诺伊大学等机构发布VisPlay框架，实现视觉语言模型从图像中自主进化 07:25 伊利诺伊大学与腾讯AI实验室发布Auden-Voice：首个平衡身份识别与情感理解的通用语音编码器 08:00 Kandinsky Lab发布Kandinsky 5.0：首个基于Flow Matching的多模态基础模型家族，实现高分辨率图像和10秒视频生成 08:40 华为联合比勒菲尔德大学提出GeoSceneGraph：基于几何场景图的文本驱动3D室内场景生成模型，实现无需预定义关系的高质量场景合成 09:15 加州大学圣地亚哥分校提出In-N-On训练范式，实现首个大规模人形机器人操作基础模型Human 0，在语言指令理解和少样本学习方面取得重大突破 09:52 NVIDIA发布VIRAL框架：实现人形机器人视觉移动操作的大规模仿真到现实迁移 10:31 Flatiron Institute等发布WALRUS：首个跨领域连续体动力学基础模型，在19个物理场景中实现最先进性能 11:09 Meta发布MHR人体模型：解耦骨骼与表面的参数化人体建模新突破 11:39 英伟达Q3财报超预期并上调Q4指引，强化AI基础设施需求确定性 12:05 Cloudflare全球服务中断事件 — 数据库权限变更触发Bot防御系统崩溃，波及核心网络服务 12:39 Meta与Fireworks发布SilverTorch：基于GPU的统一推荐系统，实现23.7倍吞吐量提升和13.35倍成本效率优化 13:07 DeepSeek开源LPLB负载均衡器：优化MoE训练动态负载不平衡问题 13:33 斯坦福与Together AI团队举办首届AI智能体科学会议，探索人工智能作为科研作者和同行评议者的能力边界 14:15 牛津大学与新加坡国立大学发布AUI-Gym：首个智能体原生界面设计框架，让AI学会为AI设计界面 14:49 Manus 推出本地浏览器自动化扩展打破云端工具身份验证壁垒 15:18 南京大学、复旦大学等发布SafeRBench：首个大型推理模型安全评估基准，提供端到端安全分析框架 15:43 北京智源研究院等发布VR-Bench：首个视频模型推理能力评估基准，通过迷宫求解任务验证"视频推理"新范式如果你对今天的前沿信号感兴趣或有自己的思考，也欢迎在评论区留言交流，期待与你碰撞更多观点。

17分钟

创智学院发布Nex，谷歌多智能体开发平台，蚂蚁发布灵光APP，OpenAI权重稀疏模型｜奇绩前沿信号1120

奇绩前沿信号播客——全球 AI 前沿的情报站奇绩前沿信号依托奇绩内部的研究体系，持续追踪并解读全球 AI 领域前沿的论文和产品动态。我们将这些内容以 AI 与生成播客的形式分享，用通俗易懂的方式呈现复杂技术，帮助你快速理解技术趋势背后的核心逻辑、潜在影响和未来发展方向。播客每日分享内容由奇绩行研实习生与 AI 共创，播客语音由 OpenMOSS （奇绩 2025 年春季创业营校友企业模型）支持。针对每日前沿信号内容，我们还准备了进阶版的解读，提供更系统、深入的分析，涵盖实验成果与价值评估、方法与技术原理、应用场景与潜力判断、总结与前沿洞察等多个维度。点击下方链接获取完整版内容，也欢迎扫描时间轴下方二维码加入奇绩前沿信号交流群，一起追踪 AI 最前沿的信息。 apply.miracleplus.com 【奇绩前沿信号介绍】 * 基于对全球 500+ 顶尖机构、3000+ 核心人才的实时追踪，只捕捉那些“刚刚发生、尚未扩散、但注定改变格局”的信号： * 认知模型突破、多模态跃迁、智能体进化…… * OpenAI、Anthropic、DeepSeek、Kimi、字节……巨头与新锐的关键动向 * Infra 演进、AI4S 落地、产业重构……高价值趋势的早期征兆【时间轴】 01:17 上海创智学院联合多家机构发布Nex全栈智能体生态系统，重新定义AI开发范式 03:05 Google发布Antigravity：基于Gemini 3 Pro的多智能体协作开发平台，Terminal-Bench 2.0得分54.2% 04:31 蚂蚁集团发布灵光APP:30秒生成小应用的全模态AI助手,基于Ming-Lite-Omni架构实现代码级多模态输出 05:31 OpenAI提出权重稀疏Transformer，实现前所未有的人类可理解电路 06:26 Together AI等机构提出DAS框架：通过分布感知推测解码将强化学习训练推出阶段加速50% 07:21 麻省理工学院何恺明团队提出JiT：让扩散模型回归去噪本质，用大patch直接预测干净图像，在ImageNet 512分辨率上实现1.78 FID 08:09 麻省理工学院何恺明团队提出VARC框架：将ARC推理问题重新定义为视觉任务，达到60.4%准确率逼近人类平均水平 08:42 商汤科技与南洋理工联合发布SenseNova-SI系列：通过800万样本数据扩展，在多项空间智能基准测试中达到开源模型最优表现 09:18 中科大提出DeCo-VAE：通过解耦表示学习紧凑视频潜在编码，实现高质量视频重建 09:47 腾讯ARC实验室推出ARC-Chapter：首个百万级长视频章节划分模型，实现层次化视频理解与导航 10:22 加州大学圣地亚哥分校提出从力量到精准的机器人手操控框架，实现82.5%零样本精准抓取成功率 10:56 加州大学圣地亚哥分校提出HMC框架：通过异构元控制实现人形机器人接触丰富的运动操作，在擦桌、开抽屉等任务上成功率提升超50% 11:28 新加坡南洋理工大学与Lambda Labs联合发布NORA-1.5：通过世界模型与动作偏好奖励实现视觉-语言-动作模型的突破性提升 12:54 北卡罗来纳大学等提出DEER-3D：通过错误驱动的3D场景编辑增强大型语言模型的空间定位能力，在标准基准上实现4-5%的性能提升 12:27 上海AI Lab等联合发布ATLAS基准测试集，通过800道原创高难度题目，实现对前沿大模型科学推理能力的精准区分 12:58 微软与英伟达联合注资Anthropic并深化基础设施合作 — 推动大模型与云算力生态协同演进 13:26 Salesforce推出LoCoBench-Agent：首个面向长上下文软件工程的大语言模型智能体基准测试，涵盖8000个场景，支持多轮交互与工具使用评估 13:58 伊利诺伊大学香槟分校提出Live-SWE-Agent:首个能在运行时自我进化的软件工程智能体,在SWE-bench Verified上达到75.4%解决率 14:28 OPPO AI团队提出O-Mem记忆系统，在个性化对话基准测试中刷新最优性能，同时实现94%的token消耗降低 14:52 VLM Run 推出 Orion：首个集多模态感知、高级视觉推理与执行于一体的统一视觉智能体，通过工具编排实现生产级视觉 AI 15:19 纽约大学朗格尼医学中心发布Lang1模型家族，在医院运营预测任务上超越DeepSeek R1等通用大模型 15:47 上海人工智能实验室与复旦大学联合发布MedBench v4：全国首个覆盖70万+题目、支持LLM/多模态/Agent三轨评测的中国医疗AI基准平台，揭示当前模型临床就绪度的系统性差距 16:17 科技巨头加码AI投资，谷歌CEO警示泡沫风险如果你对今天的前沿信号感兴趣或有自己的思考，也欢迎在评论区留言交流，期待与你碰撞更多观点。

17分钟

谷歌Gemini3发布，Grok4.1发布，混元3D部件级理解，AI Lab P1模型夺金|奇绩前沿信号1119

奇绩前沿信号播客——全球 AI 前沿的情报站奇绩前沿信号依托奇绩内部的研究体系，持续追踪并解读全球 AI 领域前沿的论文和产品动态。我们将这些内容以 AI 与生成播客的形式分享，用通俗易懂的方式呈现复杂技术，帮助你快速理解技术趋势背后的核心逻辑、潜在影响和未来发展方向。播客每日分享内容由奇绩行研实习生与 AI 共创，播客语音由 OpenMOSS （奇绩 2025 年春季创业营校友企业模型）支持。针对每日前沿信号内容，我们还准备了进阶版的解读，提供更系统、深入的分析，涵盖实验成果与价值评估、方法与技术原理、应用场景与潜力判断、总结与前沿洞察等多个维度。点击下方链接获取完整版内容，也欢迎扫描时间轴下方二维码加入奇绩前沿信号交流群，一起追踪 AI 最前沿的信息。 apply.miracleplus.com 【奇绩前沿信号介绍】 * 基于对全球 500+ 顶尖机构、3000+ 核心人才的实时追踪，只捕捉那些“刚刚发生、尚未扩散、但注定改变格局”的信号： * 认知模型突破、多模态跃迁、智能体进化…… * OpenAI、Anthropic、DeepSeek、Kimi、字节……巨头与新锐的关键动向 * Infra 演进、AI4S 落地、产业重构……高价值趋势的早期征兆【时间轴】 00:17 谷歌发布Gemini 3 Pro，刷新多模态与智能体性能上限 03:13 Grok 4.1发布：xAI通过强化学习显著提升模型情商与事实准确性 05:31 腾讯混元与浙江大学联合提出Part-X-MLLM，通过统一程序化语言接口实现对3D物体的部件级理解与编辑，达成多任务统一 07:03 上海AI Lab P1团队发布P1模型：首个在国际物理奥林匹克竞赛中夺得金牌的开源AI模型 08:37 MiroMind团队发布MiroThinker v1.0：首个通过交互扩展突破开源研究智能体性能边界的系统，在GAIA等基准上达到81.9%准确率 10:00 卡内基梅隆大学提出Tailor方法：通过多样化推理原语初始化实现高效强化学习训练 10:30 上海交通大学等提出Reason-KE++：通过过程对齐而非结果对齐，实现大模型知识编辑中的忠实推理，多跳问答准确率达95.48% 10:59 斯坦福大学发布语言模型熵校准研究，揭示模型规模扩大难以根本改善生成稳定性 11:34 清华大学提出PID控制朗之万动力学（PIDLD），实现生成模型采样速度10倍以上提升 12:05 阿里巴巴提出Field-Aware Transformer，实现CTR预测模型首个理论扩展定律 12:35 金山办公与华中科技大学发布MonkeyOCR v1.5，实现复杂文档解析与表格重建的全面突破 13:12 宾夕法尼亚大学提出DenseAnnotate：语音驱动的密集标注平台 13:47 Meta AI与KAUST提出MoS：通过动态路由实现多模态扩散模型的突破性效率提升 14:22 艾伦AI研究院提出OlmoEarth模型，通过稳定的多模态自监督学习，实现了地球观测任务的性能新高 14:39 南洋理工大学与上海AI实验室联合发布PhysX-Anything，实现从单张图像直接生成可模拟的物理3D资产 15:07 华中科技大学与南洋理工大学联合研究团队提出CineCtrl，首次实现了对生成式视频进行专业级摄影参数的电影感编辑 15:33 Physical Intelligence 发布π*0.6 VLA模型，利用RECAP迭代离线强化学习方法，实现在真实任务中效率翻倍，故障率减半 16:13 上海期智研究院发布DAP：离散化自回归规划模型，仅1.6亿参数实现自动驾驶SOTA性能 16:34 加州理工提出时间尺度增强预训练（TSAP），让神经信号基础模型在不同时间窗口下都能保持最优性能 16:59 上海人工智能实验室等机构发布PEDIASBench：首个系统评估大语言模型儿科临床能力的基准框架 17:24 阿里巴巴淘宝天猫团队与人民大学联合发布Mem-PAL：首个面向长期用户-智能体交互的个性化对话助手记忆框架 17:48 加州大学洛杉矶分校与亚马逊提出WebCoach：让网页智能体拥有跨会话记忆，实现自我进化的突破性框架 18:11 香港科技大学（广州）与香港科技大学联合团队提出TiViBench，为视频生成模型构建首个综合性视觉推理基准 18:40 Meta将“AI驱动影响”纳入绩效考核，推动全员AI化转型如果你对今天的前沿信号感兴趣或有自己的思考，也欢迎在评论区留言交流，期待与你碰撞更多观点。

19分钟

Gemini 3超前点映，阿里推出Qwen模型助理，李飞飞质疑AGI炒作，MIT优化注意力机制|奇绩前沿信号1118

奇绩前沿信号播客——全球 AI 前沿的情报站奇绩前沿信号依托奇绩内部的研究体系，持续追踪并解读全球 AI 领域前沿的论文和产品动态。我们将这些内容以 AI 与生成播客的形式分享，用通俗易懂的方式呈现复杂技术，帮助你快速理解技术趋势背后的核心逻辑、潜在影响和未来发展方向。播客每日分享内容由奇绩行研实习生与 AI 共创，播客语音由 OpenMOSS （奇绩 2025 年春季创业营校友企业模型）支持。针对每日前沿信号内容，我们还准备了进阶版的解读，提供更系统、深入的分析，涵盖实验成果与价值评估、方法与技术原理、应用场景与潜力判断、总结与前沿洞察等多个维度。点击下方链接获取完整版内容，也欢迎扫描时间轴下方二维码加入奇绩前沿信号交流群，一起追踪 AI 最前沿的信息。 apply.miracleplus.com 【奇绩前沿信号介绍】 * 基于对全球 500+ 顶尖机构、3000+ 核心人才的实时追踪，只捕捉那些“刚刚发生、尚未扩散、但注定改变格局”的信号： * 认知模型突破、多模态跃迁、智能体进化…… * OpenAI、Anthropic、DeepSeek、Kimi、字节……巨头与新锐的关键动向 * Infra 演进、AI4S 落地、产业重构……高价值趋势的早期征兆【时间轴】 00:13 谷歌Gemini 3超前点映，展示网页级多模态生成突破 02:08 阿里巴巴的 Qwen APP：以开放 Qwen 模型为引擎构建面向消费者的通用智能助理 03:32 李飞飞详解“世界模型”愿景，质疑AGI概念炒作，强调空间智能为AI下一前沿 05:02MIT与英伟达提出FlashMoBA：通过信噪比理论优化块稀疏注意力，实现14.7倍加速 06:12 丰田技术研究所与加州大学圣地亚哥分校提出强化犹豫训练法，通过三元奖励机制让大语言模型学会在不确定时说"我不知道"，将错误率从15%降至2%以下 07:13 加州大学圣地亚哥分校和Hillbot公司发布LARM：首个大规模铰接物体重建模型，实现稀疏视角下的高保真三维重建 08:01 清华、哈佛、MIT联合发布SandboxVLM：用抽象3D感知突破视觉语言模型空间推理瓶颈 08:48 上海交大与腾讯联合发布CareCom：通过校准参考特征实现生成式图像合成新突破 09:36 香港科技大学发布EmoVid数据集：首个大规模情感标注视频数据集，推动情感驱动的视频理解与生成 10:21 新加坡国立大学提出AdaptPNP：融合抓取与非抓取技能的自适应机器人操作框架，在混合操作任务中实现人类水平的灵活性 11:05 威斯康星大学麦迪逊分校发布CATS-V2V数据集，首次实现复杂恶劣交通场景下的车车协同感知突破 11:44 卡内基梅隆大学与亚马逊机器人联合提出GCo框架：通过流匹配联合生成实现多机器人协同非抓取式操控，成功处理多达9个机器人和5个物体的复杂场景 12:35 Chan Zuckerberg Biohub启动新阶段：融合前沿AI与生物科研，加速疾病研究进程 13:21 中国人民大学提出可微分拉格朗日动力学稀疏辨识框架，在噪声环境下实现高精度物理定律提取 14:00 字节跳动提出虚拟宽度网络（VWN），在几乎不增加计算成本的情况下，通过解耦嵌入宽度与主干宽度，实现了高达2.5倍的训练加速和显著的性能提升 14:53 腾讯混元提出MarsRL：通过多智能体强化学习突破推理长度限制，在数学竞赛中超越大规模模型 15:51 字节跳动发布LEMUR：首个端到端多模态推荐系统，在抖音搜索上实现查询变更率降低0.843% 16:42 字节跳动推出DiscoX基准测试，构建首个语篇级专家领域翻译评估体系 17:28 中国科学院大学和上海人工智能实验室提出GGBench：首个几何生成推理基准，统一评估多模态模型的理解与构造能力如果你对今天的前沿信号感兴趣或有自己的思考，也欢迎在评论区留言交流，期待与你碰撞更多观点。

18分钟