第235集 OpenAI发现 AI科研“拐点”!(下)

田丰说

9月20日,OpenAI研究科学家、o1大模型推理研究基础贡献者Hyung Won Chung,在x社媒上分享了MIT演讲内容。其中核心观点是通往AGI通用人工智能唯一可行的方法是激励模型,促进AI的通用技能出现,本视频为下集。 发现四,AI的进步与增加数据、增加计算能力息息相关。数据显示,计算能力大约每5年提高10倍。当前大模型训练的误区是,科研团队试图让AI学会像人类一样思考,但问题是我们自己并不知道大脑神经元层面是如何思考的。“机器应该有更多的自主性来选择如何学习,而不是被限制在人类理解的数学语言和结构中。” o1另一位核心研究者Noam Brown也强调:“训练和推理对模型性能提升作用相似,但后者成本更低,便宜1000亿倍” 发现五,AI算力硬件进步呈指数级增长,AI软件和算法需要跟上。一个系统或算法过于依赖人为设定的规则和结构,它很难适应新的、未预见的情况和数据。人教AI的结果就是当面对更大规模或更复杂的问题时,AI扩展能力会大大受限。“AI的进步与减少人为架构密切相关,在扩展一个系统或模型的过程中,我们需要找出那些阻碍扩展的假设或限制条件,比如算法、数据处理流程、模型结构等。” 总体来看,对于大模型研发,强化学习RL难度比Pretrain更高,寻找激励信号的过程非常难,而且特别“吃”算力。GPT4大家基本会做了,但是自强化学习RL除了头部的几家,还有比较大的挑战!另一个瓜,Hyung Won Chung是MIT的可再生能源和能源系统专业博士,曾经在谷歌大脑担任大语言模型预训练师。 收看上集,请关注《田丰说》,每天3分钟,掌握全球AI大事件,本视频由商汤“如影”数字人APP生成。家人们的点赞、收藏、分享,是对田老师录课的最大支持!

2分钟
38
1年前

第234集 OpenAI发现 AI科研“拐点”!(上)

田丰说

9月20日,OpenAI研究科学家、o1大模型推理研究基础贡献者Hyung Won Chung,在x社媒上分享了MIT演讲内容。其中核心观点是通往AGI通用人工智能唯一可行的方法是激励模型,促进AI的通用技能出现,本视频为上集。 发现一,AI科研正处于范式转变拐点,从传统的人类直接教授AI技能,转向激励自我学习和发展通用技能。因为AGI通用人工智能要求的技能太广博了,无法一一学习,必须掌握让AI自学的方法,以不变应万变。 发现二,大语言模型能够预测下一个token,背后的原理也是一种弱激励结构,即通过大规模多任务学习,鼓励模型学习如何解决数万亿个任务的通用技能,例如语言、推理等,而不是单独解决每个对话问题。 发现三,授人以鱼不如授人以渔。对于人来说,老师都是直接教学生特定技能,但对于AI来说,可以采用更多的算力来缩短学习时间。人类时间有限需要选择学习专业技能或通才技能,但AI不用选择,大算力能出大奇迹。《龙珠》动漫里有个设定,在特殊训练场所,角色能在外界感觉只是一天的时间内获得一年的修炼效果。对于AI机器来说,这个感知差值要高得多。”因此,具有更多计算能力的强大通才通常比专家更擅长特殊领域。 收看下集,请关注《田丰说》,每天3分钟,掌握全球AI大事件,本视频由商汤“如影”数字人APP生成。家人们的点赞、收藏、分享,是对田老师录课的最大支持!

1分钟
49
1年前

第232集 解密OpenAI“草莓”与“猎户座”

田丰说

那么最近呢 其实我们先从一个 很炸裂的这个新闻开始聊 就是大家都在关心 今年应该早就发布的这个GPT5 但是最近呢 有一些这个传闻 也有一些预测 这个 请朱雷老师给我们做一些解读和分析 对就是 大家可能也能看得到 就是你像GPT-4应该是2023年的这个 4月份它发布的 然后到现在为止 OpenAI还是没有发布GPT-5的这个 代际的这个模型 然后中间发布了几个中间的版本 比如说像GPT-4 Turbo GPT-4o包括GPT-4o Mini 都是在GPT-4系列下的一些分支的 一个GPT-4的模型 GPT-5迟迟没有来 然后可能有几个原因 今天大家讨论比较多 就是从目前硅谷那边的一些消息来看 有很大程度上的一个可能性是 目前的这个规模的一个定律 就是Scaling Law这个模式 实际上OpenAI内部的预期 没有达到相对比较高的一个水准 也有人说Scaling Law 这个已经进入一个边际收益递减的 这个就是也还在增长 但是增速慢 对对对 因为它里面会有几个约束条件 一个就是算力的一个问题 因为现在普遍来讲 实现到万卡的这个集群 其实有一些大厂是可以实现的 但是在往上就是受到很大的一个制约 你像最近那个马斯克Grok 他在搭建10万卡的一个集群 对要号称要在Grok 3要超过这个GPT 对对对 4还是5 对但是目前这个 已经是全球的一个顶级的 一个算力集群了 对对 所以说算力它是属于比如说制约OpenAI 或者是国内外的一些 大部分大厂的一个主要的一个因素 然后另外一种是目前的这个大模型 有两种模式 一种是dense model 就是稠密模型 一种是MoE的一个模型 对但是 你要训练一个moe的 一个万亿参数的一个模型 其实难度还是很大的 对对 所以说从这个模型架构层面上 和从算力层面上 包括这个数据层面上 其实都会制约目前的这个 Scaling Law的 一个是达到了一个目前的一个瓶颈 嗯对 所以目前从OpenAI内部的这个消息来看 最近大家讨论比较多的 是草莓的那个模型嘛对 然后号称原来是q*star是吧 啊对对对 它实际上它是那个模型的一个类似 一个升级版 对一开始叫Q 然后现在大家都叫草莓 包括OpenAI他们也是在这个 包括Sam Altman 他也预热了很久啊这个事情 然后从目前的这个消息来看 草莓的这个模型应该会在9月份发布 就是可能两周之内就会就会发布 对然后 现在大部分的 这个草莓的一些信息来看 他第一个 他是在代码数学和推理的 这个能力上是非常强的 啊是 会比之前的GPT-4o的这个水平要高一些 对然后另外一点非常重要一点 就是说它会 会有Agent的这个 这个思考的一个过程 普遍来讲 比如说你问一个query 问一个问题 它会思考10到20秒 它会有一个自己的 一个思考的一个过程 然后让他的这个幻觉减少 让他准确率提升 包括他的推理能力提升 这个可能是草莓模型 一个最大的一个特点 听说他的这个推理能力很惊艳 就是内部像这个Ilya 这个之前已经离开OpenAI的 这些科学家们 看到了以后 都是觉得这个有一个长足的进展 包括Sam Altman他们也说了 说我们下一代模型 是有一个压倒性的优势哈哈 啊对 这个 他们内部的这个信心还是很足 然后因为目前来看 从全球的视角上 两个模型应该是最强的 一个就是OpenAI的一个GPT系列 一个是Claude 3.5的 目前它已经发布了3.5的那个Sonnet 嗯对 但是它的Opus还没有发 就最强那个版本还没有发 然后Claude 3.5的那个Opus 它最强的也就是推理 它最重要的就是推理和代码 它对于OpenAI来讲也是一样的 它的那个草莓的这个模型 最主要的还是推理 尤其是一些多步的高难度的推理 包括一些执行具体的这个Agent任务的 一个推理的能力 这个 确实是他们目前重点的一个优化方向

4分钟
23
1年前

第230集 为什么AI 必须做实验?

田丰说

所以科研理论我们接着去看 从物理学上来讲 就是从实验观察到唯象理论 再到了一种框架 唯象理论就是没有经过严谨论证的 这个总结 实验总结 比如说天象观测 当时大家觉得所有的这个地球是中心 而且呢所有的轨道都是圆的 后来发现不对 这玩意怎么都对不上 有些行星的轨迹 他们就套大圆套小圆 套一堆模型 这个模型就非常复杂 这个就不对了 后来开普勒说 那有没有可能是椭圆的 后来用椭圆的这个事 能解释开普勒三定律 但是开普勒这个人的数学不好 所以他这个后面 他找不到精确的理论框架 牛顿出来以后 牛顿数学非常好 发明了微积分 发明了万有引力 然后完美的去解释了开普勒的三定律 这个人工智能也一样 人工智能呢 现在有超大规模的集群计算集群 我们去做大模型的训练 有一个实验 为什么现在这个像李飞飞教授说 大模型都是在企业里面创新 高校里很少 因为高校没有卡 大部分算力都在企业啊 所以现在企业更像是一个 就中国政府说的 这个叫创新的主体是民企 民企啊但是 现在央国企的算力也开始建设起来了 有了这个实验环境 你才能去做这个大模型的训练和创新 然后就发现了一个唯象理论 叫做 上一个时代是 实际上是深度学习的时代 叫AlphaGo这个时代 所以我们发现了强化学习 等等这样的一些实验的理论 这个其实在心理学上叫行为主义 就是 这个下围棋 我这个我下的好 给这个AlphaGo一个奖赏 就是加分 下的不好给你减分 AlphaGo自己跟自己下 这个 AlphaGo就训练出来围棋的这个水平了 其实人也一样 管理学你想一想哎 员工做的好我给他一个奖励 员工做不好就给他扣分对吧 或者罚钱 其实这个都是一个 这个机械化的一种理论 然后那么现在大模型的这个理论 叫尺度定律 我们叫Scaling Law 它要不断的去变大啊 OpenAI就是压住说越大越好 就是就跟我们做菜一样 这个菜里面一共有三个元素 第一个叫算力 第二个叫数据 第三个叫模型的参数 这三个东西越大越好 所以我们说这口锅就是算力 你没有大集群 你根本这个菜都炒不出来 第二个就是你的数 训练数据集得足够大 你学的东西越多 越多元化 他这个仿真世界的 就是学习这个世界的 这个规模就会越好 第三个就是 人脑是有复杂度的 所以大模型也有复杂度 只不过现在人脑复杂度比大模型高 大概100倍 其实也不远了 为什么大家预测 2028年有可能实现通用人工智能 就因为到那个时候 大模型按照尺度定律来说 再膨胀两个数量级 就达到人脑的复杂度 那是不是我们AI就AGI就出现了 就强人工智能就出现了 但是这个都是实验总结的就一个趋势性的东西 那我们特别期待说 后面有这个理论框架出来 真正指导我们未来几十年的发展 你像量子力学狭义相对论指导100年了 现在这些红利还没有释放完 非常有价值

3分钟
19
1年前

第229集 钱学森 预测21世纪

田丰说

然后那么我们接着说 这个1955年战略科学家眼中的21世纪 很厉害 现在可能也就是70年的时间 钱老先生其实当年就预测了说 中国航天奠基人是钱学森 那他当时是觉得火箭运载上太空的 太多东西太贵了 所以很多这个未来的 更多的飞船的组装 很多是在近地轨道上 那么怎么保证一个低成本的 这个近地轨道的这个运载呢 其实要有可回收拾的火箭 所以不是马斯克提出来的 那我放的这个照片 其实也是中国的可回收的火箭 今天其实中国航天部 也发布了一个消息 就是这个我们的回收 国家队 也成功了 做这个火箭回收 那第二个预言呢 是按照方法论 其实它是当时没有太空站这个概念 1955年只有这个卫星的概念 不管是苏联还是咱们 那么当时钱老先生就提出说 我们在近地轨道上 应该有一个星际码头 把我们去发往火星 或者发往其他地区的 各种的这个行程 都在这个近地码头上去做组装 这个是很重要的 而且在火星那一端 也得有一个近地轨道上的 这个星际码头 形成一个 就是地火的这样的一个旅行啊 先从先从用这个可回收的火箭 从地表基地进入到这个地球的太空站 然后从地球的太空站发射这个 这个飞船到火星的太空站 然后从火星的太空站再通过 这个 火箭再回到这个火星的地表的基地 实际上是 有这么一个四段论 那么从这个角度来看呢 我们说为什么必须得用火箭是吧 不能像这个流浪地球里面 用这个太空电梯 因为我们材料学没突破 所以现在的这个纳米科技是有希望的 中国呢 其实不管是人工智能的芯片 还是这个我们说航天 其实很重要的一点是 要怎么去加速新材料的研发

2分钟
35
1年前

第228集 “AI手机” 能干什么?

田丰说

那我们说人工智能进入今年 我们说的终端 这个是一个热点 哪些终端呢 第一大终端就是AI手机 黄仁勋说 移动的物体都是机器人 一切移动的 那么最大的量呢 就是手机 所以呢手机里面会有这个AI助手 Siri会升级 小爱同学会升级 其他的都会升级 然后那么43亿人 这个手机都会更新换代 然后呢一天呢 大家使用手机6个小时 交互的频次呢 也很高 涉及到很多场景 所以这是AI最好的嵌入 那现在AI在手机上面有四大场景 体验了四种能力 第一个叫做百科知识助手的能力 我想查任何知识 我都不查搜索引擎了 我直接查他 上半年我写了本书 以前写书得用各种搜索引擎查资料 我现在其实有60%-80% 都是用这个AI助手 直接去搜集的 甚至复杂的一些 搜集完再去做整合 内容的整合和分析 都是用的这个知识助手的能力 它体现的是 对这个世界知识的一种感知 第二个呢 是办公助手 比如说我在地铁上突然收到领导说 改一下这个PPT 或者改一下这个文章 那就直接让智能体可以去改 很方便 这就是一个办公和语言助手 包括我去看 比如说有一篇AI的论文是日文的 德文的还看不懂 没关系扔给这个商汤的这个商量 让他帮我总结一下 里面所有的这个内容 很方便 甚至多篇论文都可以 做总结 还有就是这个智能的 这个视觉娱乐助手 就是AI呢 可以去感知 一会儿我们也会有例子 AI可以像人一样 去感知这个万事万物 这个也很重要 在手机上 比如说我看到一个花儿不知道名字 用这个这个大模型 它就和我分析出来了 这个还有像日程管理的助手 商汤现在就有一个这样的一个产品 就是帮助你去 就像你的一个小助理一样 帮你管理所有的日程 谷歌也有 就是比如说家长 这个 经常可能幼儿园学校会发邮件 外国人比较喜欢发邮件 那这个AI助手就帮你把这个议程 都顺出来

2分钟
47
1年前

第227集 AI终极价值 在于“控制”

田丰说

那么接着看 就是钱学森老先生有一句话 我觉得非常具有这个战略指导意义 他当时去讲的是计算机 他说计算机真正的价值不在计算 而在于控制 这个很有哲学 就是人工智能的价值其实不在于计算 而在于他控制的对象 人工智能能卖出大价钱 那看他控制的是什么 控制的是机床 还是控制的是一辆自动驾驶的汽车 还是控制的是一个这个无人机 对吧 你的对象往往决定了你的市场价值 所以美国在看起来 好像美国很热闹 很多时候 还是顺着互联网的这个to c 这个角度在去走 但是中国的人工智能 其实从第一天开始 就瞄着是to b产业的问题 所以我说在这个领域 人工智能呢 可能有四个重要的大的课题 四个行业要去做突破 这四个行业突破 那钱学森老先生说的 这个第二次工业革命就快实现了 第一个叫做这个能源 人类的根本问题在于能源 如果人工智能能够去发现新的能源 比如可控核聚变等等 这个就有巨大的机会 就是发现新能源 发现新能源的这种生产方式 第二个呢 是这个制造 就我们说能源和制造是一体的 就是把地球上的资源转化成产品 所以AI 能不能解决这个 制造业类的核心问题 这个是关键点 第三个是什么 第三个行业和第四个行业 就不是从0到1了 实际上它是把这个生产出来的产品 从产地方运 到销售方那就是交通 第三个是交通 第四个是通信 通信可以认为它是一种媒介 但是它运送的是无形的商品 就是什么电影 音乐啊什么论文啊这些东西 所以从能源制造到这个交通和通信 大家会看 历史上任何一次人类文明的大的跃迁 都是这四个东西同时发生变化 所以人工智能 如果能解决这四个产业里面的一个 或者多个 这个核心问题 那么整个人类文明 就会有一个巨大的进步 在这个也是控制的对象的意思 我们控制什么很重要 然后那么黄仁勋 这个今年其实英伟达股票涨得非常好 虽然最近有回调 那黄仁勋呢 对未来也有一个预判 他既然可以在20年前 去看到现在的一些趋势 或者10年前 去压注这个算力 那么也说明他其实对未来的这个预测 有一些借鉴意义 比如说他认为未来所有会移动的东西 都能实现自主化 就比如说你们家有一个扫地机器人 这扫机器人现在很笨的 基本上没脑子 这卷到袜子卷到线 甚至对着玻璃就不停的在那怼 因为他玻璃识别不出来 就有很多问题 但是他没有自主化 那什么叫有自主化 就是他能够不断的去学习 今天卷到线了 明天就不会再去卷 就这些问题 甚至你给他放到一个陌生的环境 他也能自动的去做建模 现在在仓储环境里的机器人 AGV是可以自动建模的 这都可以 所以这个叫自主化 所有会移动的东西都是机器人 这个就是黄仁勋说的一件事 大家想想这个空间可就大了 所有会移动的

3分钟
26
1年前

第226集 解密“草莓”o1 柏拉图表征假说!(下)

田丰说

9月13日,OpenAI又一次震撼发布o1大模型,内部代号“草莓”,相比GPT-4o在通用推理能力方面有显著提升,堪称达到博士生水平。这一集田老师和家人们探讨下草莓o1模型背后的哲学问题。 OpenAI首席科学家、被称为“ChatGPT之父”的llya Sutskever从OpenAI离职后,非常赞赏MIT团队5月发布的一篇论文《柏拉图表征假说》(The Platonic Representation Hypothesis)。我们先讲讲什么是“洞穴寓言”,柏拉图在《理想国》一书中提出了一个思想实验,从前有一个洞穴,洞穴内的囚犯只能看到墙壁上洞外世界物体的影子,久而久之囚犯就把影子当成了对现实的认知,但影子并不是真实世界的准确表达。正如我们眼睛看到、耳朵听到、用手触摸、语言描述的“世界”,都仅仅是现实世界的“投影”。而科学家、哲学家则能够走出这个“洞穴”,通过逻辑、数学、化学、物理等科学手段,透过现象看到本质,用高水平逻辑思维探索世界本源之道。而具有复杂推理能力的草莓o1模型,则像人类科学家一样,排除语言等投影干扰,依靠逻辑推理逼近“道”。 论文中举了个简单的例子,Z是真实世界存在的一个红色圆球、一个紫色圆锥,X是映射到二维图片上的投影,Y则是现实Z的语言文本投影。人类训练了两个AI模型,视觉CV模型fimg ,和文本模型ftext,AI们各自学到了X和Y的表征方式,伴随模型参数规模越来越大、训练数据量越来越大,这两个模型最终会领悟投影背后的真实世界Z表征方式,即立体圆球与立体圆锥的精确数据。 简单来说,当“AI囚徒”(大模型)具有持续提升的复杂推理能力后,就能成为走出洞穴的哲学家,看到比人类感知更精确、更高维度的本源世界。 论文中对“柏拉图表征假说”的描述是,在不同的数据和模态上,以不同目标训练的神经网络,正在它们(AI)的表征空间中汇聚成一个共享的现实统计模型。换句话说,不同算法架构、不同模态的AI模型,变得越来越聪明后,最终都会汇聚到一个“终点目标”,形成对我们所处世界的高维现实准确描述,这不禁令人想起《三体》、《黑客帝国》的世界哲学思考。 我们回到现实,当前的大语言模型LLM的语料是思考、推理的结果,而不反映推理过程,容易隐藏因果逻辑和基础知识。而草莓o1这类新型推理模型,则能通过图片、声音、文字、质量、力、力矩等数据,建立起现实事件联合分布的概率模型,这就是通过多模态模型探索“真实世界”的科学价值,人类能否在21世纪走出“柏拉图洞穴”,超越自身感官维度看世界,就要靠AI和科学家们了。 对《柏拉图表征假说》中英文版报告感兴趣的家人们,请评论区回复“求报告”。关注《田丰说》,每天3分钟,掌握全球AI大事件,本视频由商汤“如影”数字人APP生成。

3分钟
26
1年前

第225集 解密“草莓” OpenAI o1!(中)

田丰说

9月13日,OpenAI又一次震撼发布o1大模型,内部代号“草莓”,相比GPT-4o在通用推理能力方面有显著提升,堪称达到博士生水平。 吃瓜一,草莓大模型的前身是神秘的Q-star模型,2023年11月,路透社独家报道了OpenAI秘密研发Q-star项目,被内部员工认为是迈向AGI的重大突破,引发了研发团队对AI安全的担忧,并直接引发了OpenAI董事会驱逐CEO Sam Altman、首席科学家llya出走等一系列重大事件。另外,也有人猜测草莓项目起源于OpenAI 2021年启动的GPT-Zero项目,类似谷歌AlphaZero的自主学习方向。 吃瓜二,草莓大模型回答复杂推理问题需要十几秒甚至一分钟的时间,背后是自我反思机制,包括主动检查与改进,即对最终结果、也对推理步骤都进行反思迭代,这彻底突破了RLHF人类反馈AI改进的瓶颈,由模型替代人类监督评价自身推理过程,又称为“自举”机制,像人类科学家一样自我驱动持续钻研难题。2024年6月,OpenAI提出CriticGPT,配合人工能够有效检查出大语言模型的生成错误。同期,OpenAI提出了Prover-Verifier Games,构建了验证模型和推理模型的博弈框架。 吃瓜三,2024年8月7日,OpenAI CEO Sam Altman在X社交媒体上发布了一章草莓照片,暗示草莓项目(o1模型)即将发布,引发一系列传言和猜想。 在OpenAI定义的5级AGI体系中,草莓项目是L2级AI“推理者”的关键一步,能够解决博士水平的基本问题,其后3级分别是L3具有行动力的智能体、L4擅用创新力的创新者、L5组织工作效能的智能组织体。 吃瓜四,草莓项目o1模型,为下一代基础模型生成高质量合成数据,减少幻觉。OpenAI下一代大模型不叫“GPT-5”,而是称为“猎户座Orin”,具有文本、图像、声音、视频等多模态数据的理解、推理能力,更自然地与人类、与环境交互,预计猎户座大模型将于11月大选后发布。 吃瓜五,草莓o1模型具有可泛化的复杂推理能力。包括常识推理、数学推理、搜索推理 评价反思能力,可以泛化到化学、物理推理任务中。人类的通用推理能力与记忆力无关,尺度定律驱动大模型参数量变大,带来语言大模型更善于记忆,而草莓o1新型推理大模型善于严谨思维,正在走出不同于尺度定律的工程化创新路径。此外,草莓o1善于利用代码解释器、多智能体反馈等工具,拓展自己的能力边界。 吃瓜六,AI展现了自我进化能力的“先兆”,AI的思维链CoT越变越长,代表着思考推理过程的复杂化、深度化。凭借推理技能,草莓o1模型能通过小规模语料,自主发现学习、反思改进搜索、探索新策略、借用外部工具校验准确性,从而更好地适应环境,推动多智能体协同演化,颇有达尔文“物种进化”理论的变种,这方面的进一步思考请看《田丰说》“解密草莓”系列的“下集”。 关注《田丰说》,每天3分钟,掌握全球AI大事件,本视频由商汤“如影”数字人APP生成。家人们的点赞、收藏、分享,是对田老师录课的最大支持!

3分钟
39
1年前
EarsOnMe

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧