Album
时长:
3分钟
播放:
309
发布:
9个月前
主播...
简介...
https://xiaoyuzhoufm.com

今天来聊聊Deepseek比较重要的几件事,希望对于您了解AI有帮助。




  • DeepSeek单周下载量高达约240万次,可能超过豆包在前一年春节期间通过广告投放达到的下载量

  • 引发美股大跌的是两个模型DeepSeek-V3和DeepSeek-R1,前者是类4o模型,后者是类o1模型

  • DeepSeek-V3训练成本只有Llama 3的1%,DeepSeek-R1推理成本只有OpenAI o1的3%

  • DeepSeek-V3的大量创新都与克服使用H800(而不是H100)所带来的内存和带宽不足有关

  • R1系列模型放弃了RLHF的HF(人类反馈)部分,只留下纯粹的RL(强化学习),这个过程中模型涌现了「反思」能力;

  • DeepSeek还用其80万条思维链数据微调了阿里的Qwen模型,结果后者的推理能力也提升了

  • DeepSeek尚未推出金融投资大模型,不过这只是时间问题。



体验DeepSeek:https://www.deepseek.com/


(部分资料源于网络)


本期主播:蛋酥酥/猫猫

后期:丹尼播客制作

制作人:蛋酥酥

录制支持:KUEENDOM
评价...

空空如也

小宇宙热门评论...

暂无小宇宙热门评论

EarsOnMe

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧