视觉模型的“GPT时刻”？解读DeepMind最新论文

野格知识贩子

视觉模型的“GPT时刻”？解读DeepMind最新论文

12分钟 290 8个月前

主播

MockingJ_XKo

MockingJ_XKo 1 档播客

节目简介

来源：小宇宙

核心主题

解析 Google DeepMind 视频模型 Veo 3，看其如何推动计算机视觉从 “单任务模型” 迈向通用基础模型。

关键洞见

范式转变：类比 NLP 的提示词驱动，视觉领域将告别定制化训练，迎来通用模型时代；

能力涌现：Veo 3 零样本完成边缘检测、图像分割等传统任务，潜力超训练目标；

“帧链” 推理：类比语言模型 “思维链”，通过逐帧生成实现时空维度分步推理；

推理萌芽：可解迷宫、视觉谜题，不只是生成工具，更是初级智能体。

Veo 3 四大层级能力（递进式）

感知：解 “达尔马提亚狗” 错觉图、罗夏墨迹测试；

建模：模拟光的折射 / 反射、“视觉层层叠” 物理交互；

操控：360 度新视角生成、机器人手开罐子模拟；

推理：数独求解、瑞文推理测验序列补全。

量化与展望

对比：7 任务中远超 Veo 2，pass@k（k 次尝试成功率）随次数稳定提升；

未来：当前性能是 “下限”，提示词工程 + 成本下降（参考 LLM 降本趋势）将释放潜力。

总结

Veo 3 正推动视觉领域迎来类似 NLP 的 “GPT-3 时刻”，通用视频模型驱动的视觉新时代将至。

外观

加入我们的 Discord

与播客爱好者一起交流

扫描微信二维码

添加微信好友，获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧