翁家翌:OpenAI,GPT,强化学习,Infra,后训练,天授,tuixue,开源,CMU,清华
WhynotTV Podcast

翁家翌:OpenAI,GPT,强化学习,Infra,后训练,天授,tuixue,开源,CMU,清华

122分钟 8.33万 2个月前
节目简介
来源:小宇宙
本期嘉宾翁家翌。他在 2022 年加入 OpenAI,并且是 OpenAI 一系列核心模型背后的核心贡献者之一——从 GPT-3.5、GPT-4、再到 GPT-5,你能看到的那些关键跃迁里,都有他的身影;而他最主要的贡献,你可以先记住三个词:强化学习、post-training、infra。
但对我来说,翁家翌不只是“把模型做得更强的人”。在成为 OpenAI 研究员之前,他就已经用开源和产品影响过无数人:把知识与资料公开、试图打破信息差;把做工具称作一种“慈善”——在他的价值观里,开源不是履历装饰,而是一种对世界的投入方式:追求的不是掌声,而是 impact。
在这期节目里,我们会从翁家翌的童年经历聊起,走到他在清华与 CMU 的求学与成长,再到他在 2022 年加入 OpenAI 后的亲历:站在 AI 风暴中心的人,到底看见了什么?
这里是 WhynotTV Podcast。现在请和我一起,走进翁家翌的世界。
-----------------------
2:33 - 小时候的翁家翌是什么样的小孩
5:56 - 成长过程中的投资未来的意识
8:10 - 高中计算机竞赛与升学
16:02 - 在清华开源作业与信息差
19:23 - 在本科与强化学习结缘
28:00 - 在Yoshua Bengio组暑研做NLP的经历
30:38 - 对前ChatGPT时代的NLP and RL有什么反思
32:47 - 留学申请季受挫的经历
35:28 - 对固有评价体系的挣脱
41:08 - 天授Tianshou强化学习框架的前世今生
48:07 - tuixue online签证查询系统
49:54 - 追求影响力impact的底层逻辑是什么
56:21 - CMU读研与加入OpenAI的经历
59:46 - 和John Schulman的面试故事
61:54 - 为什么没有考虑读PhD
63:16 - 研究能力和工程能力谁更重要
66:31 - infra的重要性
69:28 - 还会鼓励今天的学生读AI PhD吗
73:13 - 什么是强化学习和post-training(后训练)
74:22 - 加入OpenAI的时候ChatGPT是主线吗
76:01 - 发布ChatGPT前可以想象这样大规模的成功吗
79:18 - 2022年加入OpenAI的初印象是什么
80:52 - OpenAI的人才密度与组织架构
84:09 - GPT强化学习Post-training的前世今生
85:10 - 在2022年做RLHF有什么关键的挑战与突破
87:01 - 大模型工业级RL infra 的挑战
92:08 - 未来5-10年大语言模型的挑战和瓶颈会是是什么
96:30 - 现在的预训练和后训练可以达到AGI吗
98:34 - OpenAI还Open吗
103:30 - OpenAI实现AGI使命的最大挑战是什么
104:02 - 内部视角看Sam Altman被开除的经历
106:37 - 如何看待OpenAI的人才流失
107:43 - OpenAI面对AI竞赛的内部视角
112:48 - 未来与宿命论
118:35 - 考虑过创业吗
120:01 - 希望十年后的自己是什么样的
小宇宙热评
喜欢吃牛筋丸的杰哥
2个月前 广东
140
家翌提到开源不是为了履历镀金,而是一种对世界的投入方式,这点太戳人了。现在很多人做东西都藏着掖着,但他当年在清华开源作业、做“推学在线”打破信息差,这种把工具当“慈善”的价值观,在现在这种环境下显得特别珍贵,也解释了他后来为什么能去OpenAI做那么大的Impact。
oyihc
2个月前 浙江
137
在b站看完回到小宇宙,竟然有人质疑主播功底,我来这里也评论一下。WhynotTV制作非常非常用心,这一期是非常非常好的对话,无论换任何一家中文科技媒体,都无法生产这样的内容。没有诘问,没有公式化的问题,没有“A说了什么B怎么看”,没有炫技,没有迟疑和幻觉。对等的交流和思考静静地呈现,让人愿意一直看下去。
喜欢吃牛筋丸的杰哥
2个月前 广东
132
家翌提到开源不是为了履历镀金,而是一种对世界的投入方式,这点太戳人了。现在很多人做东西都藏着掖着,但他当年在清华开源作业、做“推学在线”打破信息差,这种把工具当“慈善”的价值观,在现在这种环境下显得特别珍贵,也解释了他后来为什么能去OpenAI做那么大的Impact。
oyihc
2个月前 浙江
128
在b站看完回到小宇宙,竟然有人质疑主播功底,我来这里也评论一下。WhynotTV制作非常非常用心,这一期是非常非常好的对话,无论换任何一家中文科技媒体,都无法生产这样的内容。没有诘问,没有公式化的问题,没有“A说了什么B怎么看”,没有炫技,没有迟疑和幻觉。对等的交流和思考静静地呈现,让人愿意一直看下去。
杰里德
2个月前 上海
37
tuixue绝对是一代留学生的时代记忆,Trinkle出去留学前在知乎上那些华为腾讯阿里的面经现在看也非常有意思
杰里德
2个月前 上海
36
tuixue绝对是一代留学生的时代记忆,Trinkle出去留学前在知乎上那些华为腾讯阿里的面经现在看也非常有意思
小王369
2个月前 山东
29
能不能反馈下,GPT5.2跟屎一样
小王369
2个月前 山东
29
能不能反馈下,GPT5.2跟屎一样
Shen深_吉人自有天相
2个月前 浙江
27
核心模型:人生的“游戏” = 主动选择“评价体系”或构建“评价体系”。 公式:你的行为 + 你所处的评价体系 = 你的价值与归属感 这个模型揭示了所有焦虑、挣扎或笃定的根源。 所以,按照这个逻辑推演,我们的未来是什么样是确定的,而高端玩家会像基因编辑一样创造自己未来的种种可能性。
Shen深_吉人自有天相
2个月前 浙江
22
核心模型:人生的“游戏” = 主动选择“评价体系”或构建“评价体系”。 公式:你的行为 + 你所处的评价体系 = 你的价值与归属感 这个模型揭示了所有焦虑、挣扎或笃定的根源。 所以,按照这个逻辑推演,我们的未来是什么样是确定的,而高端玩家会像基因编辑一样创造自己未来的种种可能性。
Fangliangyu
2个月前 江苏
17
很好奇嘉宾为何有如此宿命论的底层想法。
LuckyMrya
2个月前 北京
16
去忘掉,去体验,未来的你会帮助现在的你做决策。
Yoyo_9586
2个月前 美国
16
53:10 家翌其实不是想要被人记得吧,名留青史不是做事情的目的和内在动力,他前后表达的,应该是在说,很多评价体系是某些群体或者某些人设计的东西,他在意的其实是,对这个现实世界,现实世界里的人有没有帮助,有没有作用,如果有那就是“有影响力的”。paper citation,github的星,也只是这种影响力的一种反馈形式,他追求的不是这些形式所反馈的数字本身,所以如果哪天这些形式不再能反应真实的“对现实世界里人的帮助”了,那就再看看别的反馈形式就好。
LuckyMrya
2个月前 北京
16
去忘掉,去体验,未来的你会帮助现在的你做决策。
Fangliangyu
2个月前 江苏
16
很好奇嘉宾为何有如此宿命论的底层想法。
冷八
2个月前 上海
14
特德姜《你一生的故事》
冷八
2个月前 上海
14
特德姜《你一生的故事》
Yoyo_9586
2个月前 美国
14
53:10 家翌其实不是想要被人记得吧,名留青史不是做事情的目的和内在动力,他前后表达的,应该是在说,很多评价体系是某些群体或者某些人设计的东西,他在意的其实是,对这个现实世界,现实世界里的人有没有帮助,有没有作用,如果有那就是“有影响力的”。paper citation,github的星,也只是这种影响力的一种反馈形式,他追求的不是这些形式所反馈的数字本身,所以如果哪天这些形式不再能反应真实的“对现实世界里人的帮助”了,那就再看看别的反馈形式就好。
Emily汤
2个月前 江苏
12
这睡觉记忆法瘸了,我小孩也这样
Emily汤
2个月前 江苏
12
这睡觉记忆法瘸了,我小孩也这样
ZQ_JjEZ
2个月前 福建
11
听到,时代中学,我想起了我的大福州,👍👍
HD644112q
2个月前 河南
11
典型的富生善意!
ZQ_JjEZ
2个月前 福建
11
听到,时代中学,我想起了我的大福州,👍👍
Sparke
2个月前 美国
10
哥们采访里听着一本正经,我去退学online一看那个logo我就没绷住
HD644112q
2个月前 河南
10
典型的富生善意!
Sparke
2个月前 美国
9
哥们采访里听着一本正经,我去退学online一看那个logo我就没绷住
张成博
2个月前 山东
8
很真诚的表达👍
samomo
2个月前 湖北
8
嘉宾和主持人双强啊,喜欢这样的深度对话,宿命论能单开一期吗~~
张成博
2个月前 山东
8
很真诚的表达👍
HD432509j
2个月前 四川
7
18:23 谢谢你,信息平权。GPT我用一年,非常能帮助我。我认为这也是一种信息平权。
Yvetteee
2个月前 浙江
7
1:00:51 评价体系对上了,面试看对眼未尝不是评价体系一致符合的一种体现。 最好的结果不是“最优秀的个体”找到“最顶尖的公司”,而是 “最合适的体系”找到了“最同频的另一个体系”。
HD432509j
2个月前 四川
7
18:23 谢谢你,信息平权。GPT我用一年,非常能帮助我。我认为这也是一种信息平权。
samomo
2个月前 湖北
7
嘉宾和主持人双强啊,喜欢这样的深度对话,宿命论能单开一期吗~~
Yvetteee
2个月前 浙江
7
1:00:51 评价体系对上了,面试看对眼未尝不是评价体系一致符合的一种体现。 最好的结果不是“最优秀的个体”找到“最顶尖的公司”,而是 “最合适的体系”找到了“最同频的另一个体系”。
HD737654z
2个月前 澳大利亚
6
宿命论那块真的很有意思!我也相信未来的自己给现在或者曾经的自己留下了一些讯息,让我莫名在一些时刻产生某种安心感或者痛苦感,影响了我的心态或者决定。
盖瑞Gary
2个月前 未知
6
1:42:31 笑死,还要硬撑。其实简单来说就是在商言商。你在这里打工,你要赚企业的工资,你就得让企业赚钱。以现在的状态,对于 OpenAI 来说,开源肯定是没有闭源赚的钱多。
HD737654z
2个月前 澳大利亚
6
宿命论那块真的很有意思!我也相信未来的自己给现在或者曾经的自己留下了一些讯息,让我莫名在一些时刻产生某种安心感或者痛苦感,影响了我的心态或者决定。
盖瑞Gary
2个月前 未知
6
1:42:31 笑死,还要硬撑。其实简单来说就是在商言商。你在这里打工,你要赚企业的工资,你就得让企业赚钱。以现在的状态,对于 OpenAI 来说,开源肯定是没有闭源赚的钱多。
anymore
2个月前 云南
5
希望进一步讨论一下 research idea VS infra 这件事,虽然 idea is cheap ,圈内人都能扔几个 idea 去试试效果,但仍然是要大量的经验才能够产生洞察,才能够产生靠谱的 idea,好的 insight 还是能减少搜索空间的。并且在现在的范式下,要有进一步的突破,还是得靠 research 。可惜嘉宾没有展开讲这个,感觉不是很有说服力
anymore
2个月前 云南
5
希望进一步讨论一下 research idea VS infra 这件事,虽然 idea is cheap ,圈内人都能扔几个 idea 去试试效果,但仍然是要大量的经验才能够产生洞察,才能够产生靠谱的 idea,好的 insight 还是能减少搜索空间的。并且在现在的范式下,要有进一步的突破,还是得靠 research 。可惜嘉宾没有展开讲这个,感觉不是很有说服力

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧