田丰说 - 第224集解密“草莓” OpenAI o1！（上） - EarsOnMe

主播...

简介...

9月13日，OpenAI又一次震撼发布o1大模型，内部代号“草莓”，相比GPT-4o在通用推理能力方面有显著提升，堪称达到博士生水平。

吃瓜一，草莓大模型的前身是神秘的Q-star模型，2023年11月，路透社独家报道了OpenAI秘密研发Q-star项目，被内部员工认为是迈向AGI的重大突破，引发了研发团队对AI安全的担忧，并直接引发了OpenAI董事会驱逐CEO Sam Altman、首席科学家llya出走等一系列重大事件。另外，也有人猜测草莓项目起源于OpenAI 2021年启动的GPT-Zero项目，类似谷歌AlphaZero的自主学习方向。

吃瓜二，草莓大模型回答复杂推理问题需要十几秒甚至一分钟的时间，背后是自我反思机制，包括主动检查与改进，即对最终结果、也对推理步骤都进行反思迭代，这彻底突破了RLHF人类反馈AI改进的瓶颈，由模型替代人类监督评价自身推理过程，又称为“自举”机制，像人类科学家一样自我驱动持续钻研难题。2024年6月，OpenAI提出CriticGPT，配合人工能够有效检查出大语言模型的生成错误。同期，OpenAI提出了Prover-Verifier Games，构建了验证模型和推理模型的博弈框架。

吃瓜三，2024年8月7日，OpenAI CEO Sam Altman在X社交媒体上发布了一章草莓照片，暗示草莓项目（o1模型）即将发布，引发一系列传言和猜想。

在OpenAI定义的5级AGI体系中，草莓项目是L2级AI“推理者”的关键一步，能够解决博士水平的基本问题，其后3级分别是L3具有行动力的智能体、L4擅用创新力的创新者、L5组织工作效能的智能组织体。

吃瓜四，草莓项目o1模型，为下一代基础模型生成高质量合成数据，减少幻觉。OpenAI下一代大模型不叫“GPT-5”，而是称为“猎户座Orin”，具有文本、图像、声音、视频等多模态数据的理解、推理能力，更自然地与人类、与环境交互，预计猎户座大模型将于11月大选后发布。

吃瓜五，草莓o1模型具有可泛化的复杂推理能力。包括常识推理、数学推理、搜索推理

评价反思能力，可以泛化到化学、物理推理任务中。人类的通用推理能力与记忆力无关，尺度定律驱动大模型参数量变大，带来语言大模型更善于记忆，而草莓o1新型推理大模型善于严谨思维，正在走出不同于尺度定律的工程化创新路径。此外，草莓o1善于利用代码解释器、多智能体反馈等工具，拓展自己的能力边界。

吃瓜六，AI展现了自我进化能力的“先兆”，AI的思维链CoT越变越长，代表着思考推理过程的复杂化、深度化。凭借推理技能，草莓o1模型能通过小规模语料，自主发现学习、反思改进搜索、探索新策略、借用外部工具校验准确性，从而更好地适应环境，推动多智能体协同演化，颇有达尔文“物种进化”理论的变种，这方面的进一步思考请看《田丰说》“解密草莓”系列的“下集”。

关注《田丰说》，每天3分钟，掌握全球AI大事件,本视频由商汤“如影”数字人APP生成。家人们的点赞、收藏、分享，是对田老师录课的最大支持！

事实如何呢？让我们看看国内著名第三方AI评测机构SuperCLUE的“买家秀”，共302道中文复杂高阶推理题，包括多步推理、数字推理、推理计算、市场分析和最优化问题五个高难度推理任务。

9月13日，OpenAI又一次震撼发布o1大模型，内部代号“草莓”，相比GPT-4o在通用推理能力方面有显著提升，堪称达到博士生水平。

吃瓜一，草莓大模型的前身是神秘的Q-star模型，2023年11月，路透社独家报道了OpenAI秘密研发Q-star项目，被内部员工认为是迈向AGI的重大突破，引发了研发团队对AI安全的担忧，并直接引发了OpenAI董事会驱逐CEO Sam Altman、首席科学家llya出走等一系列重大事件。另外，也有人猜测草莓项目起源于OpenAI 2021年启动的GPT-Zero项目，类似谷歌AlphaZero的自主学习方向。

吃瓜二，草莓大模型回答复杂推理问题需要十几秒甚至一分钟的时间，背后是自我反思机制，包括主动检查与改进，即对最终结果、也对推理步骤都进行反思迭代，这彻底突破了RLHF人类反馈AI改进的瓶颈，由模型替代人类监督评价自身推理过程，又称为“自举”机制，像人类科学家一样自我驱动持续钻研难题。2024年6月，OpenAI提出CriticGPT，配合人工能够有效检查出大语言模型的生成错误。同期，OpenAI提出了Prover-Verifier Games，构建了验证模型和推理模型的博弈框架。

吃瓜三，2024年8月7日，OpenAI CEO Sam Altman在X社交媒体上发布了一章草莓照片，暗示草莓项目（o1模型）即将发布，引发一系列传言和猜想。

在OpenAI定义的5级AGI体系中，草莓项目是L2级AI“推理者”的关键一步，能够解决博士水平的基本问题，其后3级分别是L3具有行动力的智能体、L4擅用创新力的创新者、L5组织工作效能的智能组织体。

吃瓜四，草莓项目o1模型，为下一代基础模型生成高质量合成数据，减少幻觉。OpenAI下一代大模型不叫“GPT-5”，而是称为“猎户座Orin”，具有文本、图像、声音、视频等多模态数据的理解、推理能力，更自然地与人类、与环境交互，预计猎户座大模型将于11月大选后发布。

吃瓜五，草莓o1模型具有可泛化的复杂推理能力。包括常识推理、数学推理、搜索推理

评价反思能力，可以泛化到化学、物理推理任务中。人类的通用推理能力与记忆力无关，尺度定律驱动大模型参数量变大，带来语言大模型更善于记忆，而草莓o1新型推理大模型善于严谨思维，正在走出不同于尺度定律的工程化创新路径。此外，草莓o1善于利用代码解释器、多智能体反馈等工具，拓展自己的能力边界。

吃瓜六，AI展现了自我进化能力的“先兆”，AI的思维链CoT越变越长，代表着思考推理过程的复杂化、深度化。凭借推理技能，草莓o1模型能通过小规模语料，自主发现学习、反思改进搜索、探索新策略、借用外部工具校验准确性，从而更好地适应环境，推动多智能体协同演化，颇有达尔文“物种进化”理论的变种，这方面的进一步思考请看《田丰说》“解密草莓”系列的“下集”。

关注《田丰说》，每天3分钟，掌握全球AI大事件,本视频由商汤“如影”数字人APP生成。家人们的点赞、收藏、分享，是对田老师录课的最大支持！

有兴趣而且数学不错的朋友，可以自己推导下这道多步推理任务的AI考题。

某文化节上有四位演员（A,B,C,D）分别在时段1到4进行表演。提供以下条件：

条件1，第4时段的表演人数多于其他任何时段。

条件2，第1时段不能是单人表演。

条件3，不能连续两场单人表演。

条件4，每名演员至少表演一次，但不能连续两场表演。

条件5，B和C必定同时登场。

条件6，D参加了第1时段的表演，A没有参加第4时段的表演。

请问各位演员的具体表演时段如何安排？

出题45秒后o1模型给出了解题过程和正确答案：

各时段演员安排如下：

时段1，安排演员A、D。

时段2，安排演员B、C。

时段3，安排演员A。

时段4，安排演员B、C、D。

9月13日，OpenAI又一次震撼发布o1大模型，内部代号“草莓”，相比GPT-4o在通用推理能力方面有显著提升，堪称达到博士生水平。

吃瓜一，草莓大模型的前身是神秘的Q-star模型，2023年11月，路透社独家报道了OpenAI秘密研发Q-star项目，被内部员工认为是迈向AGI的重大突破，引发了研发团队对AI安全的担忧，并直接引发了OpenAI董事会驱逐CEO Sam Altman、首席科学家llya出走等一系列重大事件。另外，也有人猜测草莓项目起源于OpenAI 2021年启动的GPT-Zero项目，类似谷歌AlphaZero的自主学习方向。

吃瓜二，草莓大模型回答复杂推理问题需要十几秒甚至一分钟的时间，背后是自我反思机制，包括主动检查与改进，即对最终结果、也对推理步骤都进行反思迭代，这彻底突破了RLHF人类反馈AI改进的瓶颈，由模型替代人类监督评价自身推理过程，又称为“自举”机制，像人类科学家一样自我驱动持续钻研难题。2024年6月，OpenAI提出CriticGPT，配合人工能够有效检查出大语言模型的生成错误。同期，OpenAI提出了Prover-Verifier Games，构建了验证模型和推理模型的博弈框架。

吃瓜三，2024年8月7日，OpenAI CEO Sam Altman在X社交媒体上发布了一章草莓照片，暗示草莓项目（o1模型）即将发布，引发一系列传言和猜想。

在OpenAI定义的5级AGI体系中，草莓项目是L2级AI“推理者”的关键一步，能够解决博士水平的基本问题，其后3级分别是L3具有行动力的智能体、L4擅用创新力的创新者、L5组织工作效能的智能组织体。

吃瓜四，草莓项目o1模型，为下一代基础模型生成高质量合成数据，减少幻觉。OpenAI下一代大模型不叫“GPT-5”，而是称为“猎户座Orin”，具有文本、图像、声音、视频等多模态数据的理解、推理能力，更自然地与人类、与环境交互，预计猎户座大模型将于11月大选后发布。

吃瓜五，草莓o1模型具有可泛化的复杂推理能力。包括常识推理、数学推理、搜索推理

评价反思能力，可以泛化到化学、物理推理任务中。人类的通用推理能力与记忆力无关，尺度定律驱动大模型参数量变大，带来语言大模型更善于记忆，而草莓o1新型推理大模型善于严谨思维，正在走出不同于尺度定律的工程化创新路径。此外，草莓o1善于利用代码解释器、多智能体反馈等工具，拓展自己的能力边界。

吃瓜六，AI展现了自我进化能力的“先兆”，AI的思维链CoT越变越长，代表着思考推理过程的复杂化、深度化。凭借推理技能，草莓o1模型能通过小规模语料，自主发现学习、反思改进搜索、探索新策略、借用外部工具校验准确性，从而更好地适应环境，推动多智能体协同演化，颇有达尔文“物种进化”理论的变种，这方面的进一步思考请看《田丰说》“解密草莓”系列的“下集”。

关注《田丰说》，每天3分钟，掌握全球AI大事件,本视频由商汤“如影”数字人APP生成。家人们的点赞、收藏、分享，是对田老师录课的最大支持！

评价...

空空如也

小宇宙热门评论...

暂无小宇宙热门评论

空空如也

加入我们的 Discord

扫描微信二维码

播放列表