时长:
22分钟
播放:
978
发布:
10个月前
主播...
简介...
拿几百万2000张显卡做的开源模型,赶上了OpenAI的水平;西方技术圈懵逼:怎么做到的?
今天,我们要揭开一个惊人的科技突破 ——DeepSeek 最近发布的全新开源模型 DeepSeek-v3。这个模型被宣称是目前最强的开源大模型,其能力甚至与闭源的 GPT-4o 不相上下,令人难以置信的是,它的训练仅需 2048 张英伟达 H800 AI 芯片,这在行业内引发了广泛的热议。DeepSeek-v3 采用了混合专家架构,拥有 6710 亿的参数,推理速度比其前代模型提升了 3 倍,让它在多项测试中超越了阿里云 Qwen2.5 和 Meta 的 Llama-3.1,与 OpenAI 和 Anthropic 的闭源模型不相上下。此外,这个模型的训练成本仅为 557.6 万美元,远低于行业平均水平,这让许多业内专家都感到惊讶。计算机科学家 Andrej Karpathy 更是指出,这样的成果在资源受限的情况下,展示了对研究和工程的卓越追求。这不仅是技术上的突破,更是中国大模型创业者在严峻的算力和资金环境中,努力进行算法优化的一次成功展现。李开复的评论也不容忽视,他强调中国大模型公司的优势在于低成本和高效率,并指出与国外同行相比,他们的训练成本和推理价格都有显著优势。所以,这场科技的竞争将如何影响未来?DeepSeek 的成功是否会改变行业格局?请大家继续收听详细内容!
聊天讨论群,微信群二维码

评价...
空空如也
小宇宙热门评论...
暂无小宇宙热门评论