Album
时长:
21分钟
播放:
1,298
发布:
8个月前
简介...
https://xiaoyuzhoufm.com

通往超级个体之路PadNotes | Episode 18 | DeepResearch:当 AI 学会慢思考


大家好,欢迎来到《通往超级个体之路》第 18 期!今天我想跟大家分享一些关于 AI 的最新观察和思考。


我一直把自己看作是AI 观察家,虽然我没有直接训练最领先的 AI 模型的能力,但我喜欢研究它们的行为、阅读它们的论文,并尝试理解其背后的逻辑。这本身就是一件很有趣的事情。


最近,我发现了一个很有意思的现象,也许别人已经总结过了,但这确实是我自己观察到的规律——大模型正在变得越来越慢,也越来越会思考。


01:06 大模型正在变“慢”——从直觉到深度思考


01:18 直觉式思考(GPT-3 & GPT-4 早期阶段)


• 早期的 GPT-3 和 GPT-4 的回答非常快,你一问,它立刻给出答案,就像人类的直觉思考


• 这个阶段的大模型主要依赖预训练(pre-training),类似于学生学习了小学、初中、高中的知识,已经具备了基本的知识储备。


• 但这种直觉式回答的一个问题是幻觉较多,准确率大约在 90% 左右。


02:33 慢思考的出现(GPT-O1, DeepSeek R1 思维链阶段)


• 现阶段的 AI(如 DeepSeek R1)已经学会了慢思考。


• 你会发现,它在回答前会先拆解问题,并进行一步步推理,而不是直接给出直觉性的答案。


• 这个阶段的 AI 比较像人类的系统二思维(slow thinking),它更擅长拆解任务、理性推理,并能够主动反思自己的推理过程。



03:43 DeepSeek R1 的 AHA Moment:AI 居然学会了反思!


• 这里有个让我震撼的例子,DeepSeek 在解数学题时,突然停下来,说**“Wait, wait, wait”**(等一下!),然后回头重新检查自己的推理。



• 这个过程意味着 AI 不仅在前进,也在回溯自己的思考过程,就像人类在做复杂决策时会不断回顾和检查。


04:45 DeepResearch:AI 的“研发式思考”


2 月 2 日,OpenAI 发布了DeepResearch,一个基于 GPT-4o3(尚未发布)模型的新功能。它标志着 AI 从慢思考进化到了研发式思考



05:02 DeepResearch 的核心能力


它可以自主进行“研究-发现-再研究-再发现”的循环过程。


• 这个过程类似于人类做科研:


1. 先查找 40~50 个信息源。


2. 进行初步推理。


3. 如果不确定,再进一步查找信息、验证观点。


4. 这个过程持续进行,直到它的计算资源到达上限,或者它认为自己已经找到最优答案。


• 这一阶段的 AI 思考时间从过去的 10-30 秒,延长到 5-30 分钟!


06:22 DeepResearch 实测:AI 学会了写论文?


• 我做了一个实验:


• 我朋友(投资圈的人)在朋友圈问了一个问题:


“量子计算机会不会引发人工智能的重大突破?”


• 我先自己思考了一下,但不确定自己的答案是否靠谱。


• 于是,我把这个问题交给 DeepResearch,结果它的回答惊艳到了我:


• 它查阅了 16 个高质量信息源(包括政府网站、大学论文、核心期刊)。


• 每个句号前都标注了信息来源,确保每一句话都有学术支撑。


• 它的回答结构清晰、逻辑严密,几乎等同于一篇学术论文!


这意味着,AI 正在变成一个真正的“科研助手”,甚至比人类更擅长跨学科研究。


原提问——目前,量子计算受限于要超导,但是超导目前又受限于超低温等,只能在实验室环境,这个说法对吗?


deepresearch回答:



···中间部分截去



07:16 人类的“最后一次考试”:AI 真的比人强了吗?


为了衡量 AI 的真正能力,最近有人提出了一个新的测试,被称为“人类的最后一次考试”。


考试题目难度极高,涵盖历史、哲学、数学、代码等领域的交叉问题。


• 例如:



让 AI 翻译一块古罗马铭文,并用另一种古语言(帕米拉文)重写。


• 目前普通 AI 远远做不到,但 DeepResearch 已经能解决部分这类问题


最新成绩:



• DeepResearch 最高得分 25 分(满分 100),排名第一。


• DeepSeek 也在前五名,得分 9-10 分


这表明:现阶段 AI 已经超越普通人的认知能力,但还没有真正达到“通用人工智能(AGI)”的水平。


10:46 AI 研究者的主场:DeepResearch 背后的华人科学家


这次 DeepResearch 的发布,背后其实隐藏着一个重要现象:



该项目的 Leader 之一,是一名华人科学家——孙之清。


• 他是浙江舟山人,1997 年生,现年不到 30 岁,卡内基梅隆大学博士在读。


• 他的背景:


舟山中学 → 北京大学 → 卡内基梅隆大学


本科期间已发表顶级论文,博士阶段便成为 OpenAI 重要的技术负责人。


更令人惊讶的是:


DeepResearch 核心开发团队 21 人,其中至少 11 人是华人或华裔!


• 这意味着,全球 AI 的核心竞争者,已经逐渐变成了“中国 AI 团队 vs. 华裔美国 AI 团队”,双方正在进行一场跨国竞赛。


14:46 DeepResearch 的商业模式与局限性


虽然 DeepResearch 很强,但它并非没有问题:


1. 价格昂贵


PRO 版用户 才能使用,每月 200 美金,还只能问 100 个问题!


仅限美国、英国、欧盟、瑞士用户中国、日本等地无法使用。


2. 触发率极低


• 实测发现,只有 10% 的问题能真正激活 DeepResearch,其余 90% 仍然是普通 GPT-4 级别回答。


• 这让用户感到被“降智”,付费却无法使用完整功能。


我预测:国内 DeepSeek、智谱等团队,应该会在 3 个月内推出类似产品,填补市场空缺。


18:35 结论:AI 的慢思考时代来了


总结一下今天的观察:


AI 从直觉式思考 → 慢思考 → 研发式思考


DeepResearch 代表了一种新模式:AI 变成真正的科研助手


人才竞争进入“中美 AI 团队”之争,中国科学家正成为 AI 领域的核心力量


未来,我们很可能会迎来“AI 论文时代”——所有 AI 生成的报告,都附带完整的参考文献,确保学术可信度。这会彻底改变科研、教育、咨询等多个行业。


21:46 互动环节


今天的内容就到这里,感谢大家收听!如果你对 AI 的未来发展DeepResearch 这种新型 AI 研究方式 感兴趣,欢迎留言讨论。


你觉得 AI 还能学会哪些“人类式思考”?


DeepResearch 能成为未来科研标配吗?


期待你的观点,我们下期见!🚀

评价...

空空如也

小宇宙热门评论...
迷失的贵族
8个月前 北京
3
您有听说吗 deepseek r1的幻觉问题很严重 比起基础模型反而大幅增加。数据来自Vectara的HHEM人工智能幻觉测试 r1的幻觉率高达14.3% v3的只有3.9%
水木清华2023
8个月前 海南
0
这期内容很赞👍🏻
一只老男人
7个月前 浙江
0
12:18 学术研究的核心是提出新观点,而不是像ai这样引用综述
EarsOnMe

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧