翁家翌：OpenAI，GPT，强化学习，Infra，后训练，天授，tuixue，开源，CMU，清华

122分钟 10.09万 6个月前

主播

节目简介

来源：小宇宙

本期嘉宾翁家翌。他在 2022 年加入 OpenAI，并且是 OpenAI 一系列核心模型背后的核心贡献者之一——从 GPT-3.5、GPT-4、再到 GPT-5，你能看到的那些关键跃迁里，都有他的身影；而他最主要的贡献，你可以先记住三个词：强化学习、post-training、infra。
但对我来说，翁家翌不只是“把模型做得更强的人”。在成为 OpenAI 研究员之前，他就已经用开源和产品影响过无数人：把知识与资料公开、试图打破信息差；把做工具称作一种“慈善”——在他的价值观里，开源不是履历装饰，而是一种对世界的投入方式：追求的不是掌声，而是 impact。
在这期节目里，我们会从翁家翌的童年经历聊起，走到他在清华与 CMU 的求学与成长，再到他在 2022 年加入 OpenAI 后的亲历：站在 AI 风暴中心的人，到底看见了什么？
这里是 WhynotTV Podcast。现在请和我一起，走进翁家翌的世界。
-----------------------
2:33 - 小时候的翁家翌是什么样的小孩
5:56 - 成长过程中的投资未来的意识
8:10 - 高中计算机竞赛与升学
16:02 - 在清华开源作业与信息差
19:23 - 在本科与强化学习结缘
28:00 - 在Yoshua Bengio组暑研做NLP的经历
30:38 - 对前ChatGPT时代的NLP and RL有什么反思
32:47 - 留学申请季受挫的经历
35:28 - 对固有评价体系的挣脱
41:08 - 天授Tianshou强化学习框架的前世今生
48:07 - tuixue online签证查询系统
49:54 - 追求影响力impact的底层逻辑是什么
56:21 - CMU读研与加入OpenAI的经历
59:46 - 和John Schulman的面试故事
61:54 - 为什么没有考虑读PhD
63:16 - 研究能力和工程能力谁更重要
66:31 - infra的重要性
69:28 - 还会鼓励今天的学生读AI PhD吗
73:13 - 什么是强化学习和post-training（后训练）
74:22 - 加入OpenAI的时候ChatGPT是主线吗
76:01 - 发布ChatGPT前可以想象这样大规模的成功吗
79:18 - 2022年加入OpenAI的初印象是什么
80:52 - OpenAI的人才密度与组织架构
84:09 - GPT强化学习Post-training的前世今生
85:10 - 在2022年做RLHF有什么关键的挑战与突破
87:01 - 大模型工业级RL infra 的挑战
92:08 - 未来5-10年大语言模型的挑战和瓶颈会是是什么
96:30 - 现在的预训练和后训练可以达到AGI吗
98:34 - OpenAI还Open吗
103:30 - OpenAI实现AGI使命的最大挑战是什么
104:02 - 内部视角看Sam Altman被开除的经历
106:37 - 如何看待OpenAI的人才流失
107:43 - OpenAI面对AI竞赛的内部视角
112:48 - 未来与宿命论
118:35 - 考虑过创业吗
120:01 - 希望十年后的自己是什么样的

小宇宙热评

喜欢吃牛筋丸的杰哥

6个月前广东

140

家翌提到开源不是为了履历镀金，而是一种对世界的投入方式，这点太戳人了。现在很多人做东西都藏着掖着，但他当年在清华开源作业、做“推学在线”打破信息差，这种把工具当“慈善”的价值观，在现在这种环境下显得特别珍贵，也解释了他后来为什么能去OpenAI做那么大的Impact。

oyihc

6个月前浙江

137

在b站看完回到小宇宙，竟然有人质疑主播功底，我来这里也评论一下。WhynotTV制作非常非常用心，这一期是非常非常好的对话，无论换任何一家中文科技媒体，都无法生产这样的内容。没有诘问，没有公式化的问题，没有“A说了什么B怎么看”，没有炫技，没有迟疑和幻觉。对等的交流和思考静静地呈现，让人愿意一直看下去。

喜欢吃牛筋丸的杰哥

6个月前广东

132

oyihc

6个月前浙江

128

杰里德

6个月前上海

tuixue绝对是一代留学生的时代记忆，Trinkle出去留学前在知乎上那些华为腾讯阿里的面经现在看也非常有意思

杰里德

6个月前上海

tuixue绝对是一代留学生的时代记忆，Trinkle出去留学前在知乎上那些华为腾讯阿里的面经现在看也非常有意思

小王369

6个月前山东

能不能反馈下，GPT5.2跟屎一样

小王369

6个月前山东

能不能反馈下，GPT5.2跟屎一样

Shen深_吉人自有天相

6个月前浙江

核心模型：人生的“游戏” = 主动选择“评价体系”或构建“评价体系”。公式：你的行为 + 你所处的评价体系 = 你的价值与归属感这个模型揭示了所有焦虑、挣扎或笃定的根源。所以，按照这个逻辑推演，我们的未来是什么样是确定的，而高端玩家会像基因编辑一样创造自己未来的种种可能性。

Shen深_吉人自有天相

6个月前浙江

Fangliangyu

6个月前江苏

很好奇嘉宾为何有如此宿命论的底层想法。

LuckyMrya

6个月前北京

去忘掉，去体验，未来的你会帮助现在的你做决策。

Yoyo_9586

6个月前美国

53:10 家翌其实不是想要被人记得吧，名留青史不是做事情的目的和内在动力，他前后表达的，应该是在说，很多评价体系是某些群体或者某些人设计的东西，他在意的其实是，对这个现实世界，现实世界里的人有没有帮助，有没有作用，如果有那就是“有影响力的”。paper citation，github的星，也只是这种影响力的一种反馈形式，他追求的不是这些形式所反馈的数字本身，所以如果哪天这些形式不再能反应真实的“对现实世界里人的帮助”了，那就再看看别的反馈形式就好。

LuckyMrya

6个月前北京

去忘掉，去体验，未来的你会帮助现在的你做决策。

Fangliangyu

6个月前江苏

很好奇嘉宾为何有如此宿命论的底层想法。

冷八

6个月前上海

特德姜《你一生的故事》

冷八

6个月前上海

特德姜《你一生的故事》

Yoyo_9586

6个月前美国

Emily汤

6个月前江苏

这睡觉记忆法瘸了，我小孩也这样

Emily汤

6个月前江苏

这睡觉记忆法瘸了，我小孩也这样

ZQ_JjEZ

6个月前福建

听到，时代中学，我想起了我的大福州，👍👍

HD644112q

6个月前河南

典型的富生善意！

ZQ_JjEZ

6个月前福建

听到，时代中学，我想起了我的大福州，👍👍

Sparke

6个月前美国

哥们采访里听着一本正经，我去退学online一看那个logo我就没绷住

HD644112q

6个月前河南

典型的富生善意！

Sparke

6个月前美国

哥们采访里听着一本正经，我去退学online一看那个logo我就没绷住

张成博

6个月前山东

很真诚的表达👍

samomo

6个月前湖北

嘉宾和主持人双强啊，喜欢这样的深度对话，宿命论能单开一期吗～～

张成博

6个月前山东

很真诚的表达👍

HD432509j

6个月前四川

18:23 谢谢你，信息平权。GPT我用一年，非常能帮助我。我认为这也是一种信息平权。

Yvetteee

6个月前浙江

1:00:51 评价体系对上了，面试看对眼未尝不是评价体系一致符合的一种体现。最好的结果不是“最优秀的个体”找到“最顶尖的公司”，而是 “最合适的体系”找到了“最同频的另一个体系”。

HD432509j

6个月前四川

18:23 谢谢你，信息平权。GPT我用一年，非常能帮助我。我认为这也是一种信息平权。

samomo

6个月前湖北

嘉宾和主持人双强啊，喜欢这样的深度对话，宿命论能单开一期吗～～

Yvetteee

6个月前浙江

HD737654z

6个月前澳大利亚

宿命论那块真的很有意思！我也相信未来的自己给现在或者曾经的自己留下了一些讯息，让我莫名在一些时刻产生某种安心感或者痛苦感，影响了我的心态或者决定。

盖瑞Gary

6个月前未知

1:42:31 笑死，还要硬撑。其实简单来说就是在商言商。你在这里打工，你要赚企业的工资，你就得让企业赚钱。以现在的状态，对于 OpenAI 来说，开源肯定是没有闭源赚的钱多。

HD737654z

6个月前澳大利亚

盖瑞Gary

6个月前未知

anymore

6个月前云南

希望进一步讨论一下 research idea VS infra 这件事，虽然 idea is cheap ，圈内人都能扔几个 idea 去试试效果，但仍然是要大量的经验才能够产生洞察，才能够产生靠谱的 idea，好的 insight 还是能减少搜索空间的。并且在现在的范式下，要有进一步的突破，还是得靠 research 。可惜嘉宾没有展开讲这个，感觉不是很有说服力

anymore

6个月前云南

$EarsOnMe$

EarsOnMe

外观

翁家翌：OpenAI，GPT，强化学习，Infra，后训练，天授，tuixue，开源，CMU，清华

加入我们的 Discord

扫描微信二维码

播放列表