Album
时长:
12分钟
播放:
290
发布:
1个月前
主播...
简介...
https://xiaoyuzhoufm.com

核心主题


解析 Google DeepMind 视频模型 Veo 3,看其如何推动计算机视觉从 “单任务模型” 迈向通用基础模型。


关键洞见



  1. 范式转变:类比 NLP 的提示词驱动,视觉领域将告别定制化训练,迎来通用模型时代;

  2. 能力涌现:Veo 3 零样本完成边缘检测、图像分割等传统任务,潜力超训练目标;

  3. “帧链” 推理:类比语言模型 “思维链”,通过逐帧生成实现时空维度分步推理;

  4. 推理萌芽:可解迷宫、视觉谜题,不只是生成工具,更是初级智能体。


Veo 3 四大层级能力(递进式)



  • 感知:解 “达尔马提亚狗” 错觉图、罗夏墨迹测试;

  • 建模:模拟光的折射 / 反射、“视觉层层叠” 物理交互;

  • 操控:360 度新视角生成、机器人手开罐子模拟;

  • 推理:数独求解、瑞文推理测验序列补全。


量化与展望



  • 对比:7 任务中远超 Veo 2,pass@k(k 次尝试成功率)随次数稳定提升;

  • 未来:当前性能是 “下限”,提示词工程 + 成本下降(参考 LLM 降本趋势)将释放潜力。


总结


Veo 3 正推动视觉领域迎来类似 NLP 的 “GPT-3 时刻”,通用视频模型驱动的视觉新时代将至。

评价...

空空如也

小宇宙热门评论...

暂无小宇宙热门评论

EarsOnMe

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧