时长:
12分钟
播放:
290
发布:
1个月前
主播...
简介...
核心主题
解析 Google DeepMind 视频模型 Veo 3,看其如何推动计算机视觉从 “单任务模型” 迈向通用基础模型。
关键洞见
- 范式转变:类比 NLP 的提示词驱动,视觉领域将告别定制化训练,迎来通用模型时代;
- 能力涌现:Veo 3 零样本完成边缘检测、图像分割等传统任务,潜力超训练目标;
- “帧链” 推理:类比语言模型 “思维链”,通过逐帧生成实现时空维度分步推理;
- 推理萌芽:可解迷宫、视觉谜题,不只是生成工具,更是初级智能体。
Veo 3 四大层级能力(递进式)
- 感知:解 “达尔马提亚狗” 错觉图、罗夏墨迹测试;
- 建模:模拟光的折射 / 反射、“视觉层层叠” 物理交互;
- 操控:360 度新视角生成、机器人手开罐子模拟;
- 推理:数独求解、瑞文推理测验序列补全。
量化与展望
- 对比:7 任务中远超 Veo 2,pass@k(k 次尝试成功率)随次数稳定提升;
- 未来:当前性能是 “下限”,提示词工程 + 成本下降(参考 LLM 降本趋势)将释放潜力。
总结
Veo 3 正推动视觉领域迎来类似 NLP 的 “GPT-3 时刻”,通用视频模型驱动的视觉新时代将至。
评价...
空空如也
小宇宙热门评论...
暂无小宇宙热门评论