Album
时长:
16分钟
播放:
1,422
发布:
1年前
主播...
简介...
https://xiaoyuzhoufm.com

“还能看到GPT5吗?O1在推理过程中有实时搜索吗? 是否代表了一个全新的训练方向?” 收集了7个挺有意义的O1问题, 并第一次尝试录制FAQ来深入解答这些疑惑。希望通过这期播客能帮助大家更好地理解O1模型.


如果小伙伴们有任何新的问题或想法, 以及这种FAQ的形式是否有帮助, 随时可以在评论区留言告诉我们呀~


Timeline



  • 03:20 O1模型用来做数据反哺, 是否可行

  • 05:00 O1是否代表了一个全新的训练方向? 是否有可能取代GPT系列? 我们还能看不到GPT5吗

  • 06:14 O1使用的强化学习RL与之前训练ChatGPT的RLHF有何异同, 这次有什么新创新

  • 07:43 O1模的出现会被prompt engineer彻底取代, 未来应用种人工设计Prompt的角色会如何变化

  • 08:43 O1的COT和传统的COT(思维链)有啥区别, 有很多怀疑说O1只是特化了Agent/不会是4O微调的agent吧

  • 11:09 O1在推理过程中是否真正实现了(inference time search)实时搜索, 如果是, 具体是如何实现的

  • 14:21 相比之前的模型,O1在减少幻觉方面有改进


相关概念以及定义:


System 1 vs System 2



  • System 1:快速、直觉的思考方式,类似大多数语言模型的直接输出

  • System 2:慢速、深度的思考方式,O1模型采用的方法,会生成内部思维链



  1. 数据反哺

             利用模型生成的数据来增强训练数据集,从而提高模型性能的技术

  2. 强化学习(Reinforcement Learning, RL)

             一种机器学习方法,通过与环境交互并从反馈中学习,以最大化累积奖励

  3. RLHF (Reinforcement Learning from Human Feedback)

             利用人类反馈来指导强化学习过程的方法,通常用于训练语言模型

  4. Prompt Engineering

             设计和优化输入提示,以引导AI模型产生期望输出的技术

  5. COT (Chain of Thought)

             一种推理技术,让模型逐步展示解决问题的思考过程,而不是直接给出答案

  6. Inference Time Search

             在模型推理过程中实时进行搜索或优化的技术,用于提高输出质量

  7. 蒙特卡洛树搜索(Monte Carlo Tree Search)

  8. 是一种用于某些决策过程的启发式搜索算法,最著名的应用是在棋类游戏软件中

    幻觉(Hallucination)

             AI模型生成看似合理但实际上不准确或虚构的信息的现象

评价...

空空如也

小宇宙热门评论...
HD301109d
1年前 北京
1
点赞👍好喜欢这种直摆干货不扯其他的东西的技术向解读
oO魂
1年前 上海
0
01:05 这都多久以前的问题了?
智能饭
1年前 广东
0
o1分析很到位,很赞
RK7
1年前 上海
0
10:20 COT 不代表不需要标注,而代表标注方向转为思维。
RK7
1年前 上海
0
01:24 版本号 9.11 比 9.8 大?我是产品经理你别骗我。
EarsOnMe

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧