📝 本期播客简介
本期我们克隆了:红杉资本的播客, 原播客发布时间为 Jul 30, 2025
本期嘉宾 Alex Wei、Sheryl Hsu 和 Noam Brown 是 OpenAI IMO 金牌水平模型的幕后核心团队。IMO 金牌一直被视为通往通用人工智能(AGI)道路上的重要里程碑,而 OpenAI 的模型在 2024 年的竞赛中取得了这一历史性突破。这个成就的意义远不止于解决数学难题,其背后是一套通用的技术框架,旨在扩展模型的推理时间、并行计算能力,并处理那些难以验证的任务。在一年前,模型还只能进行几十秒的推理,而现在,它已经能持续专注上百分钟。在这场对话中,你将听到这个三人核心团队如何在短短数月内完成冲刺,模型如何表现出惊人的“自知之明”并承认自己解不出难题,以及为什么他们选择通用技术而非专用工具,为解决人类最重大的科学谜题铺路。
⚙️ 本期嘉宾
Alex Wei、Sheryl Hsu 和 Noam Brown,OpenAI IMO 金牌水平模型的幕后核心团队。他们致力于通过发展通用推理技术,解决数学等领域的顶级难题,推动通用人工智能的发展。
📒 文字版精华
🌟 精彩内容
🤯 三人小队,数月冲刺 IMO 金牌?
尽管拿下 IMO 金牌是 OpenAI 多年来的夙愿,但真正为 2024 年竞赛发起的冲刺,时间却非常紧张。Alex Wei 透露,这次努力的核心团队其实只有他们三个人,堪称一个“小而精悍”的项目。他们站在众多同事工作的基础上,在短短几个月内,将已经酝酿一段时间的算法和想法整合,最终取得了这一惊人的成就。
“具体到这一次的努力,我想,真正开始投入可能也就几个月的时间。为了赶上今年的 IMO,我们最后冲刺,把所有东西准备好……但要说核心团队,我想就我们三个人。这是一个非常小而精悍的项目。”
🤔 “这题太难”:一个懂得放弃的 AI 有多可靠?
在面对传统上最难的 IMO 第六题时,模型在投入大量算力后,最终的结论是“无解”。团队成员认为,这恰恰是模型的一大进步。相比过去模型为了表现得“有用”而编造答案,新系统表现出了惊人的“自我认知”,能承认自己能力的上限。这种诚实和可靠性,对于解决严肃的科学问题至关重要。
“我们乐于见到的是,模型没有胡编乱造,没有硬要给出一个答案,而是直接说‘无解’。当然,看到它花了那么多功夫最后说无解,还是有点小失望,但它能承认自己做不到,我觉得这是件好事。”
🛠️ 放弃专用工具 Lean,只因“通用”才是通往 AGI 的康庄大道
尽管 IMO 官方 AI 赛道基于形式化验证工具 Lean,但 OpenAI 团队却选择了自然语言的“非形式化”路径。Noam Brown 解释说,他们的首要任务是发展“通用”的推理能力。为 IMO 项目开发的所有技术,无论是扩展思考时间,还是并行计算,都被设计成可用于其他任何领域的通用系统。他们认为,投入数年开发一个只能完成单一任务的系统,在 AI 飞速发展的今天并非最佳选择。
“我们用来扩展思考时间、处理难以验证的任务以及进行并行计算的所有技术,都是我们计划或已经用于其他系统的通用技术。”
📈 下一步,千禧年难题?先跨越 1.5 小时到 1500 小时的思考鸿沟
在竞赛数学上取得成功后,下一个目标是什么?团队指出,模型在普特南等竞赛中的表现甚至更好,真正的挑战在于从“竞赛级”数学跨越到“研究级”数学。这背后是巨大的思考时间鸿沟:顶尖学生解一道 IMO 题平均用 1.5 小时,而一项研究突破可能需要一位研究者花费 1500 小时。如何将模型的推理能力从“小时级”扩展到“数月甚至数年”,才是通往解决千禧年大奖难题等重大问题的关键。
“现在我们从几秒钟的问题,进步到了那些天才学生平均每道题要花一个半小时才能解决的问题……而研究级别的数学,是这些天才学生长大后,成为研究者,要花上一千五百个小时才能解决的问题。这中间思考时间的差距是上千倍。”
🌐 播客信息补充
翻译克隆自:OpenAI’s IMO Team on Why Models Are Finally Solving Elite-Level Math
本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的
使用 AI 进行翻译,因此可能会有一些地方不通顺
如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight
空空如也
暂无小宇宙热门评论