AI闹 - #19从认知科学到视觉AI：我们如何教AI「看懂」世界? - EarsOnMe

主播

节目简介

来源：小宇宙

想象一个场景：你坐在曼谷一家餐厅，手机对准一张泰语菜单：2026年的AI不仅能把泰文翻译成中文——这已经像是上个时代的把戏了——它还能记住你是素食主义者，从二十道菜里挑出那三道不含肉的,用标准泰语帮你点单,顺便把附近评分最高的甜品店塞进你的下午行程。
如今的AI视觉已经发展成不仅能准确识别事物，还能理解「你为什么要看拍这个东西」，以及「接下来你想要干嘛」。
今天我们访谈的Chance AI的创始人曾熙，就是一个试图为AI打造视觉大脑的人，这也是AI行业当下最新的发展趋势：VLM应用.
Chance AI的产品逻辑很简单:用户拍照，APP自动识别,然后给出解释。
听起来有点抽象？我们简单拆解一下。
假设你随手拍了一张演唱会海报。对Chance AI来说这不只是「一张印着字和图案的纸」，而是:
这是什么演唱会?(识别视觉信号)
你是这个歌手的粉丝吗?(个性化上下文)
票好买吗?值得去吗?(社会共识)
然后,推导出行动:
什么时候开票?
要不要帮你加进日历?
开票当天是否设置提醒?
Chance AI上线一年，目前已经积累了20万用户，其中40%在北美。
在技术底层，他们做了一个反共识的选择，用生物学视觉原理作AI的视觉Agent，这是一个跨学科的解释工作，「行业现在最大的误区,是试图用一个模型解决复杂的视觉推理，这是不可能的。」
曾熙：巴塞罗那读认知科学与当代艺术博士，研究的问题是「为什么人类看到毕加索蓝色时期的画会感到忧郁?」
其的原理其实非常硬核，触及了人类视觉系统的本质：我们的大脑把视觉信号转化成情绪、记忆、意义。
毕业后,他先后在一加、OPPO工作，最后一份工作是在字节跳动的Flow团队担任高级总监——豆包的拍照功能就是他主导的。
他身上有种奇妙的混搭气质。能用神经科学术语解释视觉皮层的工作原理，也能用黑色讲英国皇室和中国皇室的审美哲学，会用硬件行话聊供应链和PMF，同时喜欢橘子海，一支只唱英文歌的山东青岛籍乐队。
2024年,当GPT-4o多模态模型出世时，曾熙收到了一个明确的信号——这个技术方向正接近他博士期间研究的问题：人类的视觉系统如何生成意义。
00:00 为何AI那么难看懂世界？
03:57 为什么我要离开豆包？
09:52 一次展览诞生了创业demo：安迪沃霍尔给我带来1000个种子用户
14:36 视觉语言模型VLM：从视觉识别到视觉推理的技术质变
19:23 如何让AI长出会思考的眼睛：韦伯伦效应，上下文、社会共识和品牌资产。
24:42 颜色的社会意义与技术延续行动
29:22 Chance AI竟然没有中年人在用。
33:18 人类的审美是如何被AI决定
36:07 参考人类的视觉系统：四步搭建视觉Agent
41:37 为什么婴儿毫秒之内就能懂热水不能碰，而AI不能。
47:02 语言起源与视觉交互：这是下一个入口吗？
53:41 未来Agent OS是啥样？
剪辑：张超辉
插画: Youmind

#19从认知科学到视觉AI：我们如何教AI「看懂」世界?

加入我们的 Discord

扫描微信二维码

播放列表