Vol.50|你需要知道的Deepseek的几件事

Vol.50|你需要知道的Deepseek的几件事

3分钟 309 1年前

主播

得体男孩

得体男孩 1 档播客

节目简介

来源：小宇宙

今天来聊聊Deepseek比较重要的几件事，希望对于您了解AI有帮助。

DeepSeek单周下载量高达约240万次，可能超过豆包在前一年春节期间通过广告投放达到的下载量

引发美股大跌的是两个模型DeepSeek-V3和DeepSeek-R1，前者是类4o模型，后者是类o1模型

DeepSeek-V3训练成本只有Llama 3的1%，DeepSeek-R1推理成本只有OpenAI o1的3%

DeepSeek-V3的大量创新都与克服使用H800（而不是H100）所带来的内存和带宽不足有关

R1系列模型放弃了RLHF的HF（人类反馈）部分，只留下纯粹的RL（强化学习），这个过程中模型涌现了「反思」能力；

DeepSeek还用其80万条思维链数据微调了阿里的Qwen模型，结果后者的推理能力也提升了

DeepSeek尚未推出金融投资大模型，不过这只是时间问题。

体验DeepSeek：https://www.deepseek.com/

（部分资料源于网络）

本期主播：蛋酥酥/猫猫

后期：丹尼播客制作

制作人：蛋酥酥

录制支持：KUEENDOM

外观

加入我们的 Discord

与播客爱好者一起交流

扫描微信二维码

添加微信好友，获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧