OnBoard! - EP 67. 解析DeepSeek R1技术创新与生态影响：强化学习，Long CoT，数据，Agent与开源生态 - EarsOnMe

OnBoard!
EP 67. 解析DeepSeek R1技术创新与生态影响：强化学习，Long CoT，数据，Agent与开源生态

时长：

169分钟

播放：

1.4万

发布：

6个月前

主播...

莫妮卡同学

NLive

简介...

2025年第一期OnBoard! 让大家久等了！没错，这个话题我们怎么能绕的过去：Deepseek!
Deepseek 春节前夕发布的开源推理模型 Deepseek r1，无疑是整个世界最令人关注的新闻，不论你过去是否关注 AI，相信都已经被关于 Deepseek 的各种新闻和解读轰炸了好久。但是 OnBoard! 的硬核讨论，迟来却不过时。
Hello World, who is OnBoard!?
Deepseek R1 在数学、代码和各种推理能力比肩市面上最强的 OpenAI o1 正式版模型，同时又以其技术创新带来的极低的训练和推理成本，以及完全开源的特点，点燃了全世界对于推理模型，以及中国AI实力的关注。
在各种讨论的虚虚实实中，OnBoard! 一直想做的，就是找到尽可能全面和客观的视角，追寻到技术和创新的本质。于是，我们邀请到了横跨中美的一线研究员和从业者，跟大家聊聊：
* 到底如何看待 Deepseek 一系列模型的创新？
* 推理模型最核心的难点是什么？
* DeepSeek 会对开源大模型生态带来哪些变化？
这次嘉宾也是站在学术和开源的前沿：
* 有备受关注的、最早尝试复现 r1 能力的 TinyZero 项目的一作，
* 有来自卡耐基梅隆大学研究推理最核心的 Long COT (Chain of Thoughts) 的研究员，
* 还有返场嘉宾，前 Google Tensorflow 成员、Huggingface 社区资深贡献者。
他们从推理、COT、infra和开源几个角度，从技术本质到行业影响，兼顾发散和深度地畅聊关于 Deepseek 的已知和未知，过去与未来。相信已经非常饱和的各种信息中，还可以给大家带来一些启发。
需要说明的是，其中来自 SGlang 的嘉宾因为临时原因没有参与录制，与他的补录正好又是关于模型推理的专业话题，我们就决定放在下一期作为一个相对技术的 bonus episode. 很快会放出来，敬请期待！
毫不意外，这次讨论又是长达三个多小时。但是一定值得你的时间！Enjoy!
嘉宾介绍
* Xiang Yue, 岳翔 (个人主页), Postdoc @CMU, 师从 Prof. Graham Neubig，专注于提升模型推理能力的前沿专家
* Jiayi Pan, 潘家怡 (个人主页）, PhD @Berkeley AI Research, 师从 Alane Suhr
* Tiezhen Wang, Huggingface 资深工程师，前 Google Tensorflow 资深工程师
* OnBoard! 主持：Monica（小红书/即刻：莫妮卡同学）：美元VC投资人，前 AWS 硅谷团队+ AI 创业公司打工人，公众号M小姐研习录 (ID: MissMStudy) 主理人
PS 欢迎关注 Xiang Yue 最新的论文，Demystifying Long CoT Reasoning in LLMs（arxiv.org）关于 Long CoT 在模型推理能力中的作用有很有意思的发现！
我们都聊了什么
解析 DeepSeek R1 技术核心
03:34 几位嘉宾自我介绍，fun fact: DeepSeek R1 让你惊艳的使用场景是什么？好的文笔是背诵还是理解？
17:53 如果用 RL 生产数据越来越重要，还需要人类标注数据吗？
23:52 DeepSeek R1-Zero 为什么值得关注？跟R1是什么关系？TinyZero 复现 R1 的过程中有什么启发？
35:11 为什么看似简单的 Long CoT 的做法，一直到现在才被广泛用起来？Long CoT 的研究沿革和进展是怎样的？
48:29 推理模型的 Aha Moment 是什么？跟模型的“涌现能力”有什么关系？
51:13 澄清一下！正确理解“成本30美金”！
52:36 Long CoT 的实现有什么难点？DeepSeek 做了哪些值得关注的创新？
58:33 做 Coding agent 的经验：模型 coding 能力能泛化到更广泛的 Agent 能力吗？
62:32 SFT 在R1 训练中的作用？RL生成数据成本会比人工标注低吗？
71:46 Scale up RL 的难点是什么？为什么说这是 DeepSeek infra能力中容易被忽视的点
74:08 开源社区的 infra 限制，会对复现后续研究 RL 和推理模型相关工作有什么影响？
79:57 为什么说 Rewards and Simulators are all you need：还有哪些挑战？
94:34 MoE vs Dense model 的选择：业界已经是共识了吗？
107:29 DeepSeek 蒸馏 OpenAI 的数据了吗？
112:14 OpenAI o3 思维链中出现了中文应该如何理解？
大模型开源生态会发生什么变化
115:52 开源大模型需要将数据开源吗？
123:01 开源和闭源模型的差距会一直存在吗？这个差距对于使用者和模型公司意味着什么？
127:44 未来开源推理模型都会向 DeepSeek R1 的路线上收敛吗？对开源生态会有怎样的影响？
131:36 从 DeepSeek V3 到 R1, 有了基座模型训练推理模型，只需要几周的时间吗？
132:59 开发者选择开源还是闭源模型，有怎样的考量？今年开源大模型生态有哪些变化值得期待？
142:13 如何理解：Agentic workflow 只有短期价值，长期会被模型能力取代？Agent 公司的核心能力是什么？
未来展望与宏观思考
149:30 2025年，几位嘉宾的工作重点是什么？
155:22 AI 领域有什么过热的以及还没有被充分讨论的话题？
160:36 过去半年有什么观点的变化？
164:08 AI超越大部分人类智能的时候，你的生存意义是什么？
重点词汇
* Reinforcement Learning
* Chain of Thoughts
* SFT
* MoE
* Dense model
* Agentic workflow
参考文章
* Xiang 最新的论文：Demystifying Long CoT Reasoning in LLMs
* TinyZero: github.com
* Deepseek
V3: github.com
R1: github.com
R1 zero: arxiv.org
mp.weixin.qq.com万字解析DeepSeek 成长史
* www.latent.space
* semianalysis.com
* arcprize.org
欢迎关注M小姐的微信公众号，了解更多中美软件、AI与创业投资的干货内容！
M小姐研习录 (ID: MissMStudy)
欢迎在评论区留下你的思考，与听友们互动。喜欢 OnBoard! 的话，也可以点击打赏，请我们喝一杯咖啡！如果你用 Apple Podcasts 收听，也请给我们一个五星好评，这对我们非常重要。
最后！快来加入Onboard！听友群，结识到高质量的听友们，我们还会组织线下主题聚会，开放实时旁听播客录制，嘉宾互动等新的尝试。添加任意一位小助手微信，onboard666, 或者 Nine_tunes,小助手会拉你进群。期待你来！

评价...

空空如也

小宇宙热门评论...

TsumetaiChiTrader

6个月前北京

如果有同学想要卷的快一点，可以看我整理的这个文档，《DeepSeek认知之旅》文档链接：https://kcnrgc2yrax7.feishu.cn/docx/AJo5dVRS7ortyEx1OW8cX9KBngd?openbrd=1&doc_app_id=501&blockId=doxcncVubbqQeHtN9klREuWVgUQ&blockType=whiteboard&blockToken=KrGqwrZKDh2PkpbNR6hcWn2Rn7b#doxcncVubbqQeHtN9klREuWVgUQ

无上甚深微妙法

6个月前美国

太精彩了开场几位的观点非常有深度～向各位学习

三生万物103

6个月前上海

i can listen to this all day

nani_mCVZ

6个月前浙江

赶了个晚集。。上周关键infra也开源了

无上甚深微妙法

6个月前美国

an approximate knowledge retriever with stochastic emergent behavior 很准确

耳已

5个月前四川

英文不熟就不要老蹦单词了

J_Lock

6个月前北京

03:52 张小珺那期的论文整理了三分之二，又在这儿见到了😂

nani_mCVZ

6个月前浙江

1:57:40 赶了个晚集…上周开源周也把infra开源了

子鱼FM

6个月前德国

很喜欢你们的内容。问一个技术上的问题：你们线上和线下是怎么录音的呢？我听下来线下是一个麦录所有人。线上是录喇叭出来的声音，还是软件内录呢？谢谢

EricZhao8

4个月前江苏

很喜欢的播客之一。听了两遍内容很精彩干货满满！

忱致

6个月前北京

23:14 r1 zero：base model做起来的没有做sft等就有了reasoning能力；没有进行人类价值和用户价值对齐，在long cot上表现不够好，因此做了r1，科学角度不够精妙，但是实际落地的思路。基础模型后，用小部分高质量的long cot数据进行微调，再做rl训练；再结合v3做核心目的是创造易用模型（openai的o1 ？内部有类似的探索）

XerWandeRer

6个月前上海

看看我的：从 R1 的前序到 R1/K1.5，到 R1 带来的 Post Training 的黄金时刻，和 RL Agent 的黎明 https://echotech.feishu.cn/wiki/NpGDwuVDqivgDMkV1mZcBkBpnif

llm007

5个月前上海

这期非常好，希望多来这种硬核的

肉鸽

5个月前浙江

啊，我想问AI公司，除了技术人员，有啥开放的其他岗位吗，抓头

bibibabo

5个月前美国

rule包括正确性和格式

Elose_zyxt

5个月前北京

请问这期会出文字版吗

Feynming

5个月前广东

支持一下

煎蛋飞车

5个月前山东

特别不清晰，包括发音和观点

dadalada

4个月前广东

“科技播客内容质量评价”访谈招募 👋你好！我是一名在努力平衡理想和实践的大学生，正处在迷茫探索的阶段，特别感激您此时给予的信任和帮助🙏 我是谁？为什么要访谈？我是华南理工大学新闻与传播学院广告学大四毕业生，已保研至西安交通大学网络与新媒体专业，正在做科技传播和播客内容质量的研究，致力于构建一套科技播客内容质量评价体系，因此希望通过访谈了解大家对科技播客内容的看法～我想和你聊什么？怎么聊？如果你经常收听科技播客（如小宇宙平台上的硅谷 101、科技早知道、科技乱炖、乱翻书等），且对科技播客内容有自己的见解和建议，希望能邀请你进行三十分钟左右的访谈～非常期待您的分享！

丰野

4个月前瑞典

提一个建议！能不能每个节目将一些缩写名词在评论区置顶一下，没有相关项目背景的有时听不懂…

去听...

小宇宙

谁收藏了...

EarsOnMe

空空如也

加入我们的 Discord

扫描微信二维码

播放列表