主播
节目简介
来源:小宇宙
主持人:如果放在全球一线阵营里横向对比,V4目前到底处于什么位置?
田丰:DeepSeek V4是全球开源模型的明确第一,与顶级闭源模型在编程和数学领域达到同一量级,但在世界知识和通用智能体任务上仍有3-6个月的代差。
一、编程和形式数学是V4对闭源模型的真实突破口
V4-Pro-Max的Codeforces评分为3206,超过GPT-5.4(3168)和Gemini 3.1-Pro(3052),这是开源模型首次在竞技编程赛事上匹配闭源前沿模型的成绩。LiveCodeBench 93.5%,领先Claude Opus 4.6(88.8%)和Gemini 3.1 Pro(91.7%)。形式数学方面,Putnam-2025上达到120/120的满分,与Axiom并列,超过Aristotle(100/120)和Seed-1.5-Prover(110/120)。这两个领域的共同特征是:结果有明确的客观验证标准(测试用例通过/Lean证明器接受),造假空间极小。在可客观验证的智力任务上,V4已进入全球第一梯队。
二、知识密度差距揭示了训练数据质量而非架构的瓶颈
在SimpleQA-Verified(广泛世界知识)上,V4-Pro-Max得分57.9%,落后Gemini 3.1 Pro(75.6%)约18个百分点。在GPQA Diamond(研究生级科学推理)上,V4得分90.1%,Gemini 3.1 Pro为94.3%,差距约4个百分点。这两个基准测试的特点是:模型必须具备大量经过深度消化的事实性知识,单靠推理能力无法弥补。这个差距不是V4的架构问题,而是训练数据的广度和质量问题。报告中V4-Pro-Base在Simple-QA verified上从V3.2的28.3分跃升至55.2分,说明团队已意识到知识密度不足,并在预训练数据策略上做了针对性改进,但与Google多年积累的知识型数据管道之间的差距仍未弥合。
三、价格维度重构了"位置"本身的含义
V4-Pro的API输出价格为3.48美元/百万Token,GPT-5.4约60美元,Claude Opus 4.7约75美元,差距达到17-21倍。这个数字在战略意义上超越了性能差距本身。Dario Amodei曾指出,AI的竞争终局是"能力溢出后的成本竞争"——当模型性能足够接近,价格决定市场份额。V4将闭源前沿模型85-90%的能力,以1/6至1/20的成本提供,并以开权重形式开放本地部署。对于开发者生态和企业采购而言,这不是"性能略差但便宜"的二流选项,而是足以改变架构选型决策的系统性优势。OpenAI和高通合作研发移动端芯片、字节豆包走合作硬件轻资产路线,本质上都是在应对这一成本压力——V4的存在,使所有厂商的硬件协同和模型端侧化计划都必须重新核算经济账。
田丰:DeepSeek V4是全球开源模型的明确第一,与顶级闭源模型在编程和数学领域达到同一量级,但在世界知识和通用智能体任务上仍有3-6个月的代差。
一、编程和形式数学是V4对闭源模型的真实突破口
V4-Pro-Max的Codeforces评分为3206,超过GPT-5.4(3168)和Gemini 3.1-Pro(3052),这是开源模型首次在竞技编程赛事上匹配闭源前沿模型的成绩。LiveCodeBench 93.5%,领先Claude Opus 4.6(88.8%)和Gemini 3.1 Pro(91.7%)。形式数学方面,Putnam-2025上达到120/120的满分,与Axiom并列,超过Aristotle(100/120)和Seed-1.5-Prover(110/120)。这两个领域的共同特征是:结果有明确的客观验证标准(测试用例通过/Lean证明器接受),造假空间极小。在可客观验证的智力任务上,V4已进入全球第一梯队。
二、知识密度差距揭示了训练数据质量而非架构的瓶颈
在SimpleQA-Verified(广泛世界知识)上,V4-Pro-Max得分57.9%,落后Gemini 3.1 Pro(75.6%)约18个百分点。在GPQA Diamond(研究生级科学推理)上,V4得分90.1%,Gemini 3.1 Pro为94.3%,差距约4个百分点。这两个基准测试的特点是:模型必须具备大量经过深度消化的事实性知识,单靠推理能力无法弥补。这个差距不是V4的架构问题,而是训练数据的广度和质量问题。报告中V4-Pro-Base在Simple-QA verified上从V3.2的28.3分跃升至55.2分,说明团队已意识到知识密度不足,并在预训练数据策略上做了针对性改进,但与Google多年积累的知识型数据管道之间的差距仍未弥合。
三、价格维度重构了"位置"本身的含义
V4-Pro的API输出价格为3.48美元/百万Token,GPT-5.4约60美元,Claude Opus 4.7约75美元,差距达到17-21倍。这个数字在战略意义上超越了性能差距本身。Dario Amodei曾指出,AI的竞争终局是"能力溢出后的成本竞争"——当模型性能足够接近,价格决定市场份额。V4将闭源前沿模型85-90%的能力,以1/6至1/20的成本提供,并以开权重形式开放本地部署。对于开发者生态和企业采购而言,这不是"性能略差但便宜"的二流选项,而是足以改变架构选型决策的系统性优势。OpenAI和高通合作研发移动端芯片、字节豆包走合作硬件轻资产路线,本质上都是在应对这一成本压力——V4的存在,使所有厂商的硬件协同和模型端侧化计划都必须重新核算经济账。