第224集 解密“草莓” OpenAI o1!(上)

田丰说

9月13日,OpenAI又一次震撼发布o1大模型,内部代号“草莓”,相比GPT-4o在通用推理能力方面有显著提升,堪称达到博士生水平。 吃瓜一,草莓大模型的前身是神秘的Q-star模型,2023年11月,路透社独家报道了OpenAI秘密研发Q-star项目,被内部员工认为是迈向AGI的重大突破,引发了研发团队对AI安全的担忧,并直接引发了OpenAI董事会驱逐CEO Sam Altman、首席科学家llya出走等一系列重大事件。另外,也有人猜测草莓项目起源于OpenAI 2021年启动的GPT-Zero项目,类似谷歌AlphaZero的自主学习方向。 吃瓜二,草莓大模型回答复杂推理问题需要十几秒甚至一分钟的时间,背后是自我反思机制,包括主动检查与改进,即对最终结果、也对推理步骤都进行反思迭代,这彻底突破了RLHF人类反馈AI改进的瓶颈,由模型替代人类监督评价自身推理过程,又称为“自举”机制,像人类科学家一样自我驱动持续钻研难题。2024年6月,OpenAI提出CriticGPT,配合人工能够有效检查出大语言模型的生成错误。同期,OpenAI提出了Prover-Verifier Games,构建了验证模型和推理模型的博弈框架。 吃瓜三,2024年8月7日,OpenAI CEO Sam Altman在X社交媒体上发布了一章草莓照片,暗示草莓项目(o1模型)即将发布,引发一系列传言和猜想。 在OpenAI定义的5级AGI体系中,草莓项目是L2级AI“推理者”的关键一步,能够解决博士水平的基本问题,其后3级分别是L3具有行动力的智能体、L4擅用创新力的创新者、L5组织工作效能的智能组织体。 吃瓜四,草莓项目o1模型,为下一代基础模型生成高质量合成数据,减少幻觉。OpenAI下一代大模型不叫“GPT-5”,而是称为“猎户座Orin”,具有文本、图像、声音、视频等多模态数据的理解、推理能力,更自然地与人类、与环境交互,预计猎户座大模型将于11月大选后发布。 吃瓜五,草莓o1模型具有可泛化的复杂推理能力。包括常识推理、数学推理、搜索推理 评价反思能力,可以泛化到化学、物理推理任务中。人类的通用推理能力与记忆力无关,尺度定律驱动大模型参数量变大,带来语言大模型更善于记忆,而草莓o1新型推理大模型善于严谨思维,正在走出不同于尺度定律的工程化创新路径。此外,草莓o1善于利用代码解释器、多智能体反馈等工具,拓展自己的能力边界。 吃瓜六,AI展现了自我进化能力的“先兆”,AI的思维链CoT越变越长,代表着思考推理过程的复杂化、深度化。凭借推理技能,草莓o1模型能通过小规模语料,自主发现学习、反思改进搜索、探索新策略、借用外部工具校验准确性,从而更好地适应环境,推动多智能体协同演化,颇有达尔文“物种进化”理论的变种,这方面的进一步思考请看《田丰说》“解密草莓”系列的“下集”。 关注《田丰说》,每天3分钟,掌握全球AI大事件,本视频由商汤“如影”数字人APP生成。家人们的点赞、收藏、分享,是对田老师录课的最大支持! 事实如何呢?让我们看看国内著名第三方AI评测机构SuperCLUE的“买家秀”,共302道中文复杂高阶推理题,包括多步推理、数字推理、推理计算、市场分析和最优化问题五个高难度推理任务。 9月13日,OpenAI又一次震撼发布o1大模型,内部代号“草莓”,相比GPT-4o在通用推理能力方面有显著提升,堪称达到博士生水平。 吃瓜一,草莓大模型的前身是神秘的Q-star模型,2023年11月,路透社独家报道了OpenAI秘密研发Q-star项目,被内部员工认为是迈向AGI的重大突破,引发了研发团队对AI安全的担忧,并直接引发了OpenAI董事会驱逐CEO Sam Altman、首席科学家llya出走等一系列重大事件。另外,也有人猜测草莓项目起源于OpenAI 2021年启动的GPT-Zero项目,类似谷歌AlphaZero的自主学习方向。 吃瓜二,草莓大模型回答复杂推理问题需要十几秒甚至一分钟的时间,背后是自我反思机制,包括主动检查与改进,即对最终结果、也对推理步骤都进行反思迭代,这彻底突破了RLHF人类反馈AI改进的瓶颈,由模型替代人类监督评价自身推理过程,又称为“自举”机制,像人类科学家一样自我驱动持续钻研难题。2024年6月,OpenAI提出CriticGPT,配合人工能够有效检查出大语言模型的生成错误。同期,OpenAI提出了Prover-Verifier Games,构建了验证模型和推理模型的博弈框架。 吃瓜三,2024年8月7日,OpenAI CEO Sam Altman在X社交媒体上发布了一章草莓照片,暗示草莓项目(o1模型)即将发布,引发一系列传言和猜想。 在OpenAI定义的5级AGI体系中,草莓项目是L2级AI“推理者”的关键一步,能够解决博士水平的基本问题,其后3级分别是L3具有行动力的智能体、L4擅用创新力的创新者、L5组织工作效能的智能组织体。 吃瓜四,草莓项目o1模型,为下一代基础模型生成高质量合成数据,减少幻觉。OpenAI下一代大模型不叫“GPT-5”,而是称为“猎户座Orin”,具有文本、图像、声音、视频等多模态数据的理解、推理能力,更自然地与人类、与环境交互,预计猎户座大模型将于11月大选后发布。 吃瓜五,草莓o1模型具有可泛化的复杂推理能力。包括常识推理、数学推理、搜索推理 评价反思能力,可以泛化到化学、物理推理任务中。人类的通用推理能力与记忆力无关,尺度定律驱动大模型参数量变大,带来语言大模型更善于记忆,而草莓o1新型推理大模型善于严谨思维,正在走出不同于尺度定律的工程化创新路径。此外,草莓o1善于利用代码解释器、多智能体反馈等工具,拓展自己的能力边界。 吃瓜六,AI展现了自我进化能力的“先兆”,AI的思维链CoT越变越长,代表着思考推理过程的复杂化、深度化。凭借推理技能,草莓o1模型能通过小规模语料,自主发现学习、反思改进搜索、探索新策略、借用外部工具校验准确性,从而更好地适应环境,推动多智能体协同演化,颇有达尔文“物种进化”理论的变种,这方面的进一步思考请看《田丰说》“解密草莓”系列的“下集”。 关注《田丰说》,每天3分钟,掌握全球AI大事件,本视频由商汤“如影”数字人APP生成。家人们的点赞、收藏、分享,是对田老师录课的最大支持! 有兴趣而且数学不错的朋友,可以自己推导下这道多步推理任务的AI考题。 某文化节上有四位演员(A,B,C,D)分别在时段1到4进行表演。提供以下条件: 条件1,第4时段的表演人数多于其他任何时段。 条件2,第1时段不能是单人表演。 条件3,不能连续两场单人表演。 条件4,每名演员至少表演一次,但不能连续两场表演。 条件5,B和C必定同时登场。 条件6,D参加了第1时段的表演,A没有参加第4时段的表演。 请问各位演员的具体表演时段如何安排? 出题45秒后o1模型给出了解题过程和正确答案: 各时段演员安排如下: 时段1,安排演员A、D。 时段2,安排演员B、C。 时段3,安排演员A。 时段4,安排演员B、C、D。 9月13日,OpenAI又一次震撼发布o1大模型,内部代号“草莓”,相比GPT-4o在通用推理能力方面有显著提升,堪称达到博士生水平。 吃瓜一,草莓大模型的前身是神秘的Q-star模型,2023年11月,路透社独家报道了OpenAI秘密研发Q-star项目,被内部员工认为是迈向AGI的重大突破,引发了研发团队对AI安全的担忧,并直接引发了OpenAI董事会驱逐CEO Sam Altman、首席科学家llya出走等一系列重大事件。另外,也有人猜测草莓项目起源于OpenAI 2021年启动的GPT-Zero项目,类似谷歌AlphaZero的自主学习方向。 吃瓜二,草莓大模型回答复杂推理问题需要十几秒甚至一分钟的时间,背后是自我反思机制,包括主动检查与改进,即对最终结果、也对推理步骤都进行反思迭代,这彻底突破了RLHF人类反馈AI改进的瓶颈,由模型替代人类监督评价自身推理过程,又称为“自举”机制,像人类科学家一样自我驱动持续钻研难题。2024年6月,OpenAI提出CriticGPT,配合人工能够有效检查出大语言模型的生成错误。同期,OpenAI提出了Prover-Verifier Games,构建了验证模型和推理模型的博弈框架。 吃瓜三,2024年8月7日,OpenAI CEO Sam Altman在X社交媒体上发布了一章草莓照片,暗示草莓项目(o1模型)即将发布,引发一系列传言和猜想。 在OpenAI定义的5级AGI体系中,草莓项目是L2级AI“推理者”的关键一步,能够解决博士水平的基本问题,其后3级分别是L3具有行动力的智能体、L4擅用创新力的创新者、L5组织工作效能的智能组织体。 吃瓜四,草莓项目o1模型,为下一代基础模型生成高质量合成数据,减少幻觉。OpenAI下一代大模型不叫“GPT-5”,而是称为“猎户座Orin”,具有文本、图像、声音、视频等多模态数据的理解、推理能力,更自然地与人类、与环境交互,预计猎户座大模型将于11月大选后发布。 吃瓜五,草莓o1模型具有可泛化的复杂推理能力。包括常识推理、数学推理、搜索推理 评价反思能力,可以泛化到化学、物理推理任务中。人类的通用推理能力与记忆力无关,尺度定律驱动大模型参数量变大,带来语言大模型更善于记忆,而草莓o1新型推理大模型善于严谨思维,正在走出不同于尺度定律的工程化创新路径。此外,草莓o1善于利用代码解释器、多智能体反馈等工具,拓展自己的能力边界。 吃瓜六,AI展现了自我进化能力的“先兆”,AI的思维链CoT越变越长,代表着思考推理过程的复杂化、深度化。凭借推理技能,草莓o1模型能通过小规模语料,自主发现学习、反思改进搜索、探索新策略、借用外部工具校验准确性,从而更好地适应环境,推动多智能体协同演化,颇有达尔文“物种进化”理论的变种,这方面的进一步思考请看《田丰说》“解密草莓”系列的“下集”。 关注《田丰说》,每天3分钟,掌握全球AI大事件,本视频由商汤“如影”数字人APP生成。家人们的点赞、收藏、分享,是对田老师录课的最大支持!

3分钟
92
1年前

第223集 AI进化论 “金字塔”模型

田丰说

那么接着去看 就是现在大家都讲这个 生成式人工智能 就是你告诉他一句话 他给你什么都能生成 不管是代码文章还是图片 甚至视频 那么生成式人工智能的核心 就是大模型 这个尤其是语言类的大模型 对吧人类呢 为什么说人类的智慧都是语言 在语言里面 哲学有一句话叫做“语言即世界” 就是人类能表达的智慧 都是能够写出来能够说出来的东西 那你说 有些东西是不是不在语言里面 为什么驾校非得去这个去 去练练手 上上车对吧 你光看看交规 光看看这个这个说明书 你还是不会开车 所以很多东西呢 语言是一个高浓度的 高知识密度的一个载体 但是可能不是全部 那人工智能先做了一件事 就是把能收集到的 互联网上所有的知识都收集起来了 变成了一个世界级的人类知识库 去训练大模型 所以现在大模型感觉比任何一个 导师教授或者是博士都懂 很多行业他都懂 但是他懂得水平呢 可能没有达到顶尖科学家的水平 他懂得也就是大概相当于大学生 我们希望明后年能达到研究生 但是他懂得领域多 你架不住他的这个天文地理社会哲学 数学逻辑 全都懂 包括医学 这个是很厉害的 所以他现在是一个知识助手 第二个阶段要做什么 知识有些东西考的是记忆力 那还有一些东西考的是什么 就是我们上完大学 上到研究生会发现老师 给的题 都是推理 要很长的一个推理步骤 就拿高考来说 高考最后一道大题是需要推40步的 就数学 最后一道大题40步 但是大模型基本都做不好 推10步以下 甚至3步的 这个人工智能做的都还不错 但是一旦他能推40步 甚至400步的时候 甚至更长 精准的去做推理 那么 他就已经达到顶尖科学家的水平了 那这个我们正在做训练 无非就是科学家怎么去做推理的 我们把这个数据收集到 交给人工智能就行 之所以他现在没学会 是因为互联网上有什么问题 需要推导40步 很少互联网上的很多是情绪的表达 和这个这个很简单的一些 这个直觉上的这个 这个判断 很少有科学家的数据在上面 所以 现在最重要的是科学家的这个思维 长链条的思维 数据这个很关键 这个代表人类的顶尖水平 所以大家为什么觉得 有时候ChatGPT也好 大模型也好 感觉不是那么聪明 因为他学的是互联网 互联网只代表人类的平均水平 如果学的都是科学家 那都是至少是博士以上的水平 所以呢最重要的是 我们要从旧的知识 存量知识推导出新的知识 甚至是新的数学逻辑和假设 这个现在已经开始有了 就AI for Science领域已经开始有了 然后再往上一层是什么 我们都知道 任何一个生物体也好 工具技术也好 它不是万能的 AI也有它的边界 那这个时候呢 人类为什么很强大 人类会使用工具 甚至说会判断这个不同的任务 我去挑选不同的工具组合 那人工智能也正在学会这一点 我们说除了人类 其实有些鸟 猩猩啊海豚也会用工具 但是都是简单用 那人工智能如何去学会使用 比如数学的软件 使用机器人机器手 做实验他只要会调用工具 甚至他会创造工具的时候 他可能就会形成这种这个超人类的 或者是人类的超级助手了 这样的一个机会了 所以我们把这三层概括成KRE 我们正在从底层的知识助手 人工智能去做到推理助手 也就是一个比较好的这个 理科生 所以现在简单来说 人工智能更像文科生 现在努力的 让他变成一个非常强的理科思维

3分钟
37
1年前

第222集 AI如何改变 “三个世界”?

田丰说

为什么AI现在有这次突破 因为他能理解知识 而知识的载体是语言和文字 那么这个人工智能 其实正在影响人类的三个世界 这三个世界 实际上是这个哲学家波普尔说的 第一个叫物理世界 刚才看到了 机器人可以去改造物理世界 第二个叫精神世界 也就是我们的心理世界 这个世界呢 机器人就是我们有一些聊天的机器人 可以提供给你 情绪价值 通过文字和语言 第三个叫知识世界 或者叫数字世界 哎呀可以在仿真的环境里面 不断的去做探索 然后形成更多的知识 可以自主做实验 这三个世界都可以 但是呢目前知识的流通呢 人类的知识流通 是从物理世界里做实验 流通到人类的大脑 就是精神世界里面 然后人类再把精神世界的知识转化成 比如数据库 知识库 或者是电子书 转化成数字世界里的东西 那人工智能也一样 人工智能 先学习这个数字世界里的知识 然后再通过人类的反馈 精神世界的反馈来去修正 最终其实他是要操作物理世界 来去直接获得知识 所以 他可以从这个仿真世界里面 先去做虚拟实验 也可以在物理世界借助机器人 去验证一些物理规律 就不会产生幻觉了 小朋友为什么生下来 就知道这个物体会往地上掉 他无非就是拿了几次 什么东西都会往地上掉 他就掌握这规律了 那现在AI它就是没有实体 没有实体 它就不具备这种验证这个重力的这个 身体没有这个交互 你不能交互 其实有很多智力就不会体现出来 这个就叫做具身智能 就是所以说 有的时候我们经常说 人类能不能理解动物呢 你能不能理解蝙蝠 理解不了 因为你没有蝙蝠的那种声波的感知 也不能飞行 你是没有办法理解蝙蝠的思维逻辑 跟人有什么差异的 就是 所以有一种说法叫做人类的智慧 是大脑加身体 是跟肉体是分不开的

1分钟
28
1年前

第221集 浅析 “李约瑟之问”

田丰说

然后我们接着去讲 就是科学观的底层是什么呢 就是现代的科学呢 不是有一个李约瑟之问吗 就是为什么工业革命发生在欧洲 甚至李约瑟这个人是个英国的科学家 中国的古代科学史是由英国人写的 所以这个也是一个遗憾 就是当然 是在很多中国 科技人员的支持下 李约瑟写的 中国的这个科技史好多卷 大家有兴趣可以去看一下 但是李约瑟之问 就给我们提出了一个疑问 为什么近代科学 只有新中国成立以后才开始起步 为什么在之前像民国清朝时期都没有 人家正在工业革命的时候 我们正在考科举 后来其实大家可以去分析 有很多种原因 但是其中有一个非常重要的原因 就是我们的组织形态 古代中国科技比较强 是因为 我们是靠匠人 单个的个体很强 不管是像鲁班呀 还是像 我们说 像王阳明 等等 就是每一个人其实都在自己的领域 一个人天才就够了 近代科学是必须要依靠研究院 科学院这种集群作战的 必须达到一定的人才密度和规模 才能做起来 open现在已经超过1,000人了 那中国在新中国成立之前 是没有这种组织的 只有学堂 这个什么李鸿章 张之洞 成立的一些学堂 学堂只是上学的地方 做科研他还是没有达到一个规模 而且更多偏文科 然后呢新中国成立之后 马上成立的中科院 这个才刚开始 有成建制的这种科研团队 中国工程院是在一九九几年成立的 就又晚了一些了 社科院还早一点

1分钟
17
1年前

第220集 OpenAI进化论 “快思慢想”!

田丰说

据The Information报道,OpenAI已向美国国家安全官员展示了草莓(Strawberry)项目,即GPT-4的加强版,并保证在安全、合理的范围内开发和使用这一技术。同时,草莓生成的合成数据被用于支持猎户座(Orion)大模型的开发,猎户座疑似就是GPT-5版本大模型。Strawberry和Orion分别聚焦于解决复杂推理任务、作为GPT-4继任者的模型。知名媒体人Haider预测Orion猎户座的发布时间是年底,最起码是在11月大选之后。田老师分析,对人类而言“语言即世界”,而对AI而言“数学即宇宙”,据路透社报道,Q*大模型变身为草莓上市,在MATH基准测试集上,草莓能够成功解答90%的数学题,也能够回答《纽约时报》Connections的复杂文字谜题,甚至可以制定产品营销策略,此外,据说草莓能够像人类一样自主浏览网页、收集信息、做深度研究,形成智能体的能力。这一大模型“进化”现象与人类大脑中“快思考”的系统1和“慢思考”的系统2十分相似,大语言模型负责分钟级快速响应人类需求,而智能体则负责逻辑分析、反思、解决复杂问题等比较耗时间、耗精力的任务,田老师在此推荐诺贝尔经济学奖得主Daniel Kahneman的经典著作《快思慢想》。 家人们的点赞、收藏、分享,是对田老师录课的最大支持!关注《田丰说》,每天3分钟,掌握全球AI大事件,本视频由商汤“如影”数字人APP生成。

1分钟
34
1年前

第219集 零代码AI生成游戏,模拟人生不是梦!

田丰说

田老师最近沉迷于《黑神话悟空》无法自拔,但游戏行业一个颠覆式大事件从天而降!AI引擎已能够实时模拟游戏,谷歌开源最新扩散模型。 黄仁勋预言未来世界,我们操作的游戏中每一个像素都将被AI生成,而不是被渲染。8月28日,谷歌最新开源研究成果GameNGen,这是第一个完全由神经模型驱动的游戏引擎,在单个TPU上以每秒超过20帧速度模拟经典游戏DOOM《毁灭战士》,每帧画面都由扩散模型进行预测,下一帧预测的峰值信噪比(PSNR)达到了29.4,已经可以和有损JPEG压缩相媲美,和原有游戏的视觉质量一样,60%的片段玩家无法分辨。该引擎使用了强化学习和扩散模型的两阶段训练,包含智能体和两个模型。GameNGen系统实现了在长轨迹上与复杂环境进行高质量地实时交互,网友感慨:“游戏能生成,电视剧也能生成,人生模拟器来了”。我喜欢玩《黑神话悟空》,但是觉得BOSS很难打,那就用AI再生成一版简单容易的开挂版悟空。当我们玩游戏时,AI模型正在实时生成千人千面的游戏内容,这已经超越了OpenAI的Sora,因为Sora无法像GameNGen一样和人实时交互,10年后的AI PC,是不是人类输入文本、语音的任务和问题,然后AI大模型操作系统直接生成视频,显示在屏幕上,或声音输出答案,这就是“软件2.0”时代的计算机了。 那么问题来了,马斯克说:“特斯拉可以用真实世界的视频做类似的模拟。”基于Autopilot自动驾驶团队数万亿的真实世界数据,假如算力足够,我们也能在将来模拟出“第二地球”,我们的“第一地球”是否也是模拟的呢?《黑客帝国》、《头号玩家》、《盗梦空间》等一系列科幻大片,都在探讨一个哲学问题“庄周梦蝶”,庄周、蝴蝶哪个才是真实的世界? 家人们的点赞、收藏、分享,是对田老师录课的最大支持!关注《田丰说》,每天3分钟,掌握全球AI大事件,本视频由商汤“如影”数字人APP生成。

2分钟
24
1年前
EarsOnMe

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧