主播
节目简介
来源:小宇宙
想象一个场景:你坐在曼谷一家餐厅,手机对准一张泰语菜单:2026年的AI不仅能把泰文翻译成中文——这已经像是上个时代的把戏了——它还能记住你是素食主义者,从二十道菜里挑出那三道不含肉的,用标准泰语帮你点单,顺便把附近评分最高的甜品店塞进你的下午行程。
如今的AI视觉已经发展成不仅能准确识别事物,还能理解「你为什么要看拍这个东西」,以及「接下来你想要干嘛」。
今天我们访谈的Chance AI的创始人曾熙,就是一个试图为AI打造视觉大脑的人,这也是AI行业当下最新的发展趋势:VLM应用.
Chance AI的产品逻辑很简单:用户拍照,APP自动识别,然后给出解释。
听起来有点抽象?我们简单拆解一下。
假设你随手拍了一张演唱会海报。对Chance AI来说这不只是「一张印着字和图案的纸」,而是:
这是什么演唱会?(识别视觉信号)
你是这个歌手的粉丝吗?(个性化上下文)
票好买吗?值得去吗?(社会共识)
然后,推导出行动:
什么时候开票?
要不要帮你加进日历?
开票当天是否设置提醒?
Chance AI上线一年,目前已经积累了20万用户,其中40%在北美。
在技术底层,他们做了一个反共识的选择,用生物学视觉原理作AI的视觉Agent,这是一个跨学科的解释工作,「行业现在最大的误区,是试图用一个模型解决复杂的视觉推理,这是不可能的。」
曾熙:巴塞罗那读认知科学与当代艺术博士,研究的问题是「为什么人类看到毕加索蓝色时期的画会感到忧郁?」
其的原理其实非常硬核,触及了人类视觉系统的本质:我们的大脑把视觉信号转化成情绪、记忆、意义。
毕业后,他先后在一加、OPPO工作,最后一份工作是在字节跳动的Flow团队担任高级总监——豆包的拍照功能就是他主导的。
他身上有种奇妙的混搭气质。能用神经科学术语解释视觉皮层的工作原理,也能用黑色讲英国皇室和中国皇室的审美哲学,会用硬件行话聊供应链和PMF,同时喜欢橘子海,一支只唱英文歌的山东青岛籍乐队。
2024年,当GPT-4o多模态模型出世时,曾熙收到了一个明确的信号——这个技术方向正接近他博士期间研究的问题:人类的视觉系统如何生成意义。
00:00 为何AI那么难看懂世界?
03:57 为什么我要离开豆包?
09:52 一次展览诞生了创业demo:安迪沃霍尔给我带来1000个种子用户
14:36 视觉语言模型VLM:从视觉识别到视觉推理的技术质变
19:23 如何让AI长出会思考的眼睛:韦伯伦效应,上下文、社会共识和品牌资产。
24:42 颜色的社会意义与技术延续行动
29:22 Chance AI竟然没有中年人在用。
33:18 人类的审美是如何被AI决定
36:07 参考人类的视觉系统:四步搭建视觉Agent
41:37 为什么婴儿毫秒之内就能懂热水不能碰,而AI不能。
47:02 语言起源与视觉交互:这是下一个入口吗?
53:41 未来Agent OS是啥样?
剪辑:张超辉
插画: Youmind
如今的AI视觉已经发展成不仅能准确识别事物,还能理解「你为什么要看拍这个东西」,以及「接下来你想要干嘛」。
今天我们访谈的Chance AI的创始人曾熙,就是一个试图为AI打造视觉大脑的人,这也是AI行业当下最新的发展趋势:VLM应用.
Chance AI的产品逻辑很简单:用户拍照,APP自动识别,然后给出解释。
听起来有点抽象?我们简单拆解一下。
假设你随手拍了一张演唱会海报。对Chance AI来说这不只是「一张印着字和图案的纸」,而是:
这是什么演唱会?(识别视觉信号)
你是这个歌手的粉丝吗?(个性化上下文)
票好买吗?值得去吗?(社会共识)
然后,推导出行动:
什么时候开票?
要不要帮你加进日历?
开票当天是否设置提醒?
Chance AI上线一年,目前已经积累了20万用户,其中40%在北美。
在技术底层,他们做了一个反共识的选择,用生物学视觉原理作AI的视觉Agent,这是一个跨学科的解释工作,「行业现在最大的误区,是试图用一个模型解决复杂的视觉推理,这是不可能的。」
曾熙:巴塞罗那读认知科学与当代艺术博士,研究的问题是「为什么人类看到毕加索蓝色时期的画会感到忧郁?」
其的原理其实非常硬核,触及了人类视觉系统的本质:我们的大脑把视觉信号转化成情绪、记忆、意义。
毕业后,他先后在一加、OPPO工作,最后一份工作是在字节跳动的Flow团队担任高级总监——豆包的拍照功能就是他主导的。
他身上有种奇妙的混搭气质。能用神经科学术语解释视觉皮层的工作原理,也能用黑色讲英国皇室和中国皇室的审美哲学,会用硬件行话聊供应链和PMF,同时喜欢橘子海,一支只唱英文歌的山东青岛籍乐队。
2024年,当GPT-4o多模态模型出世时,曾熙收到了一个明确的信号——这个技术方向正接近他博士期间研究的问题:人类的视觉系统如何生成意义。
00:00 为何AI那么难看懂世界?
03:57 为什么我要离开豆包?
09:52 一次展览诞生了创业demo:安迪沃霍尔给我带来1000个种子用户
14:36 视觉语言模型VLM:从视觉识别到视觉推理的技术质变
19:23 如何让AI长出会思考的眼睛:韦伯伦效应,上下文、社会共识和品牌资产。
24:42 颜色的社会意义与技术延续行动
29:22 Chance AI竟然没有中年人在用。
33:18 人类的审美是如何被AI决定
36:07 参考人类的视觉系统:四步搭建视觉Agent
41:37 为什么婴儿毫秒之内就能懂热水不能碰,而AI不能。
47:02 语言起源与视觉交互:这是下一个入口吗?
53:41 未来Agent OS是啥样?
剪辑:张超辉
插画: Youmind