
时长:
148分钟
播放:
3.29万
发布:
2个月前
主播...
简介...
今天这集,《商业访谈录》第一次迎来一位co-host,是大家熟悉的李广密。
广密邀请了大模型公司阶跃星辰的首席科学家张祥雨,来聊聊,多模态的前世今生和未来技术的前沿走向。
张祥雨在这集节目详细阐述了:他参与的多模态的10年历史,对多模态的全新思考,以及所预见的下一个“GPT-4时刻”。
他提到一个细节:在训练过程中他曾经发现一件百思不得其解的现象——模型的通用对话能力、情商和知识量都是随着模型变大变得更强,但模型的推理能力(尤其是数学)表现却是先上升后平缓,再扩大反而是下降——这点在业界还未引发广泛讨论。关于这个怪现象,他也给出了自己的解答。
下面是广密和祥雨的聊天。
2025,我们和AI共同进步!
我们的播客节目在腾讯新闻首发,大家可以前往关注哦,这样可以第一时间获取节目信息和更多新闻资讯:)
多模态研究的10年史:迷茫和转机
02:00 张祥雨的学术经历和个人研究主线
12:25 CV(计算机视觉)向NLP(自然语言处理)的学习历史
17:14 2022年我开始对单纯靠视觉学出“CV领域的GPT时刻”比较悲观
18:22 纯视觉这个domain有什么问题?GPT这样的生成模型你可以同时拥有生成、理解和人类对齐,而静态图像这三者是割裂的
24:23 我停止了对静态图像表征的研究,构思新的研究主题:短期内利用视觉和语言的对齐关系
29:10 经过尝试还是没做到图像的理解、生成和对齐一体化,我得到一个越来越强的生成模型,和一个越来越强的理解模型,没有起到叠加效果——为什么如此难以融合?
38:45 做了大半年十分迷茫,但在此刻出现了转机
训练大模型发现的怪事、蛛丝马迹与办法
41:11 训练过程中发现了一件百思不得其解的怪事:模型的通用对话能力、情商、知识量确实模型越大越强,但模型的推理能力(尤其是数学)表现是先上升后平缓,再扩大反而是下降
43:10 一些蛛丝马迹:更大的模型做数学题倾向于跳步,不老实
44:33 经过分析,这是next token prediction的本质缺陷
45:42 更大的压缩率未必对应更高的计算精度,我们来做一个思想实验
47:27 生成模型的“特征坍缩现象”
50:48 解决方案就是引入RL(强化学习)
53:28 o1的核心是思维链的pattern——“做思考模型,pattern is all you need”
01:01:52 当模型走到某一步,摆在面前有两个分支——走左边?还是走右边?——一个token之内到底能不能解决?(critical decision)——不能,所以引入反思pattern
01:10:16 o1范式的本质是一种Meta-CoT ,是CoT的CoT
对多模态研究的新思考和新进展
01:10:57 研究完o1,返回研究为什么视觉生成可控性这么差,就有了眉目
01:15:13 简单把生成和理解做到一起,难度非常大,缺失了重要一环CoT
01:15:54 去年中开启新的project:视觉理解(视觉空间的Long CoT)
01:19:06 尝试了半年,结果给大家透露一下吧!
01:21:30 o系列不仅泛化了domain,更吸引人的是泛化了pattern
01:22:16 博弈类问题是难以泛化的领域,有很多无效思考和低级错误
01:24:07 o1激发的反思pattern,在预训练语料中都有分布了
01:31:31 关于预训练加多模态数据有两种说法:影响了text智商?还是增强了scaling law?
01:36:43 往后两条腿走:扩充预训练语料和扩展动作空间
01:45:42 多模态的“GPT-4时刻”还有多久
预见下一个“GPT-4时刻”
01:46:56 long context和多模型协作
02:07:09 架构不重要,架构是服务算法和系统的(为什么我说Linear Transformer不本质)
02:08:30 下一个“GPT-4时刻”?模型的在线学习/自主学习
02:21:22 澄清一些有关Agent的观点
02:25:00 人虽然没有生成器官,但人有世界模型
02:26:34 我们的智能水平还在为视觉挣扎,机器人领域在抢跑
【更多信息】
联络我们:微博@张小珺-Benita
更多信息欢迎关注公众号:张小珺
广密邀请了大模型公司阶跃星辰的首席科学家张祥雨,来聊聊,多模态的前世今生和未来技术的前沿走向。
张祥雨在这集节目详细阐述了:他参与的多模态的10年历史,对多模态的全新思考,以及所预见的下一个“GPT-4时刻”。
他提到一个细节:在训练过程中他曾经发现一件百思不得其解的现象——模型的通用对话能力、情商和知识量都是随着模型变大变得更强,但模型的推理能力(尤其是数学)表现却是先上升后平缓,再扩大反而是下降——这点在业界还未引发广泛讨论。关于这个怪现象,他也给出了自己的解答。
下面是广密和祥雨的聊天。
2025,我们和AI共同进步!
我们的播客节目在腾讯新闻首发,大家可以前往关注哦,这样可以第一时间获取节目信息和更多新闻资讯:)
多模态研究的10年史:迷茫和转机
02:00 张祥雨的学术经历和个人研究主线
12:25 CV(计算机视觉)向NLP(自然语言处理)的学习历史
17:14 2022年我开始对单纯靠视觉学出“CV领域的GPT时刻”比较悲观
18:22 纯视觉这个domain有什么问题?GPT这样的生成模型你可以同时拥有生成、理解和人类对齐,而静态图像这三者是割裂的
24:23 我停止了对静态图像表征的研究,构思新的研究主题:短期内利用视觉和语言的对齐关系
29:10 经过尝试还是没做到图像的理解、生成和对齐一体化,我得到一个越来越强的生成模型,和一个越来越强的理解模型,没有起到叠加效果——为什么如此难以融合?
38:45 做了大半年十分迷茫,但在此刻出现了转机
训练大模型发现的怪事、蛛丝马迹与办法
41:11 训练过程中发现了一件百思不得其解的怪事:模型的通用对话能力、情商、知识量确实模型越大越强,但模型的推理能力(尤其是数学)表现是先上升后平缓,再扩大反而是下降
43:10 一些蛛丝马迹:更大的模型做数学题倾向于跳步,不老实
44:33 经过分析,这是next token prediction的本质缺陷
45:42 更大的压缩率未必对应更高的计算精度,我们来做一个思想实验
47:27 生成模型的“特征坍缩现象”
50:48 解决方案就是引入RL(强化学习)
53:28 o1的核心是思维链的pattern——“做思考模型,pattern is all you need”
01:01:52 当模型走到某一步,摆在面前有两个分支——走左边?还是走右边?——一个token之内到底能不能解决?(critical decision)——不能,所以引入反思pattern
01:10:16 o1范式的本质是一种Meta-CoT ,是CoT的CoT
对多模态研究的新思考和新进展
01:10:57 研究完o1,返回研究为什么视觉生成可控性这么差,就有了眉目
01:15:13 简单把生成和理解做到一起,难度非常大,缺失了重要一环CoT
01:15:54 去年中开启新的project:视觉理解(视觉空间的Long CoT)
01:19:06 尝试了半年,结果给大家透露一下吧!
01:21:30 o系列不仅泛化了domain,更吸引人的是泛化了pattern
01:22:16 博弈类问题是难以泛化的领域,有很多无效思考和低级错误
01:24:07 o1激发的反思pattern,在预训练语料中都有分布了
01:31:31 关于预训练加多模态数据有两种说法:影响了text智商?还是增强了scaling law?
01:36:43 往后两条腿走:扩充预训练语料和扩展动作空间
01:45:42 多模态的“GPT-4时刻”还有多久
预见下一个“GPT-4时刻”
01:46:56 long context和多模型协作
02:07:09 架构不重要,架构是服务算法和系统的(为什么我说Linear Transformer不本质)
02:08:30 下一个“GPT-4时刻”?模型的在线学习/自主学习
02:21:22 澄清一些有关Agent的观点
02:25:00 人虽然没有生成器官,但人有世界模型
02:26:34 我们的智能水平还在为视觉挣扎,机器人领域在抢跑
【更多信息】
联络我们:微博@张小珺-Benita
更多信息欢迎关注公众号:张小珺
评价...
空空如也
小宇宙热门评论...

张小珺
2个月前
北京
45
如果大家只听一集播客节目了解多模态,希望是这集🤓
HD963717x
2个月前
河南
29
内容很感兴趣,能不能修下音

墨翕Lyn
2个月前
浙江
26
其实这一期信息量很大,值得反复体会。嘉宾是真的专业度很高,既有学术的思路和洞察,也有充分的工业实践和经验,既给出了相对high level的洞见,也有具体实践给出来的经验教训。
在这个前提下,音质问题忍了,放慢速度仔细听。
西布
2个月前
陕西
20
1声音不清楚。2只是陈述,没有思想交锋。

禹创
2个月前
江苏
17
期待文字稿
Baca
2个月前
美国
14
这期嘉宾无私的分享的真的非常好 属于虽然有损音质 但也是必听的推荐…尤其是分享了大模型训练研究过程中的面对种种问题挫折再解决的过程~ 这是非常有价值的~其实很多专家的采访就像播客中探讨的next token prediction直线推理一样…只分享自己的成功和正确的判断 而将踩过的坑self-reflection这部分都一笔带过…其实这部分踩坑爬坑的经历都是非常有价值的部分

TingCraft
2个月前
广东
11
这集内容音质调动了我全部的多模态理解力^_^
HD621579t
2个月前
新西兰
8
内容很好,但声音效果太差了。

reddream
2个月前
北京
7
嘉宾有很强的洞察力,听起来很有收获。不过录音质量似乎可以提升
cmw_swQi
2个月前
江苏
6
这里很有启发,next token prediction体现了某种效率优先的原则,所以目前在编码,文本总结压缩这些任务上是非常好用的工具,但是在数学和语义丰富保持上是取舍了
cmw_swQi
2个月前
江苏
6
1:11:48 单步的最大复杂度是否超过模型transformer token的复杂度很有启发,比较本质
取个好名字真难
2个月前
新加坡
5
这样好的内容出现在这个频道,就证明这个频道是AI时代必须关注的频道了
kun_2ATw
2个月前
北京
4
47:13 这里解释跳步的思考,有意思有道理

却东
2个月前
浙江
3
1:05:56 项羽老师对于o系列模型的理解我不太能赞同,反思何以被理解为裁剪动作空间... 任何学习(不限于反思)都是在裁剪动作空间,裁剪动作空间(塑造模型的energy landscape)也不必通过反思来进行。裁剪几乎全部在预训练完成(对比一下预训练和rl的信息量),rl是蛋糕上的樱桃,预训练才是蛋糕的主体
扬_GtaD
2个月前
广东
3
是录音设备不好还是他低音炮啊?一直听一直皱眉。
王强_Andy
2个月前
北京
3
48:43 跟人脑机制太像了 哈哈 盲目自信和节省资源
伊利丹怒风
2个月前
上海
2
很多观点很有深度,对Agent、对多模态、对世界模型,很有触动,感谢
bj_yS8q
2个月前
新加坡
2
干活很多,听完能理解阶跃真实在国内在做agi的公司!
阿白_kA7N
2个月前
北京
2
声音听着太难受了。
找了个工具声音转文字,再ai朗读都好多了。
期待官方文字稿

持续迭代
2个月前
北京
2
这个收音…实在是没法听下去
LK_bcDh
2个月前
重庆
2
音质实在太差了,听不下去。
夏尔_牧
2个月前
西班牙
2
听不清楚
duducheng
2个月前
瑞士
2
很有水平!

飞扬之音
2个月前
河南
2
嘉宾的声音听不是很清楚
HD254201v
2个月前
北京
2
17:46 很棒,很牛的思路,很早的洞察
朱有以
2个月前
湖北
1
这期真大佬,前两天刚学ResNet
Kiedis
2个月前
广东
1
很好奇,博弈类问题难以激发和泛化的本质原因是什么。这个领域也有不少pattern,在预训练时,肯定也压缩了这类信息。

frank_ocean
2个月前
上海
1
xiangyu thank you for your honest take
字节
2个月前
浙江
1
这样的音质都愿意反复听,绝对是找到了pmf🤣
大鱼_mjSh
2个月前
北京
1
感谢小珺
HD145942q
2个月前
美国
1
这一集太强了👍
Tova
2个月前
上海
1
18:26 嘉宾觉得纯视觉研究表征与mlp研究推理等更高级的智能之间存在gap
HD771979z
2个月前
江苏
1
感谢这么高质量的分享👍
HD112767m
2个月前
北京
1
太强了
Baca
2个月前
美国
1
沙发!先赞后听!
WangHeng
2个月前
山东
1
想起了 Prolog 哈哈
570_iOjM
2个月前
北京
1
大牛啊
ABZ2180
2个月前
北京
1
12:25 CV(计算机学习),笔误

却东
2个月前
浙江
1
15:03 哈哈,想起了项羽老师的那篇从不变特征视角看mim

却东
2个月前
浙江
1
0:59:00 预训练就是在塑造模型的energy landscape,数据所在的位置成为深深的峡谷,其余的位置成为耸立的山峰。
山岛于鱼余雨
2个月前
上海
0
从大模型泛化能力的产生中学到一个属于人的常识,反思确实能够让人变得更有能力。
HD1000455u
2个月前
江苏
0
07:54 是有人在嗑瓜子吧
煊安-语迟者说
2个月前
北京
0
感觉嘉宾擅长的就是研究回字的第四种写法,不是说这样不对,而是觉得在 AI 的这个阶段以及如何思考多模态,似乎这个思路是错的