田丰说 - 第379集田丰对话澎湃新闻：中美AI差距，DeepSeek开源商业化 - EarsOnMe

主播

节目简介

来源：小宇宙

主持人：如果放在全球一线阵营里横向对比，V4目前到底处于什么位置？
田丰：DeepSeek V4是全球开源模型的明确第一，与顶级闭源模型在编程和数学领域达到同一量级，但在世界知识和通用智能体任务上仍有3-6个月的代差。
一、编程和形式数学是V4对闭源模型的真实突破口
V4-Pro-Max的Codeforces评分为3206，超过GPT-5.4（3168）和Gemini 3.1-Pro（3052），这是开源模型首次在竞技编程赛事上匹配闭源前沿模型的成绩。LiveCodeBench 93.5%，领先Claude Opus 4.6（88.8%）和Gemini 3.1 Pro（91.7%）。形式数学方面，Putnam-2025上达到120/120的满分，与Axiom并列，超过Aristotle（100/120）和Seed-1.5-Prover（110/120）。这两个领域的共同特征是：结果有明确的客观验证标准（测试用例通过/Lean证明器接受），造假空间极小。在可客观验证的智力任务上，V4已进入全球第一梯队。
二、知识密度差距揭示了训练数据质量而非架构的瓶颈
在SimpleQA-Verified（广泛世界知识）上，V4-Pro-Max得分57.9%，落后Gemini 3.1 Pro（75.6%）约18个百分点。在GPQA Diamond（研究生级科学推理）上，V4得分90.1%，Gemini 3.1 Pro为94.3%，差距约4个百分点。这两个基准测试的特点是：模型必须具备大量经过深度消化的事实性知识，单靠推理能力无法弥补。这个差距不是V4的架构问题，而是训练数据的广度和质量问题。报告中V4-Pro-Base在Simple-QA verified上从V3.2的28.3分跃升至55.2分，说明团队已意识到知识密度不足，并在预训练数据策略上做了针对性改进，但与Google多年积累的知识型数据管道之间的差距仍未弥合。
三、价格维度重构了"位置"本身的含义
V4-Pro的API输出价格为3.48美元/百万Token，GPT-5.4约60美元，Claude Opus 4.7约75美元，差距达到17-21倍。这个数字在战略意义上超越了性能差距本身。Dario Amodei曾指出，AI的竞争终局是"能力溢出后的成本竞争"——当模型性能足够接近，价格决定市场份额。V4将闭源前沿模型85-90%的能力，以1/6至1/20的成本提供，并以开权重形式开放本地部署。对于开发者生态和企业采购而言，这不是"性能略差但便宜"的二流选项，而是足以改变架构选型决策的系统性优势。OpenAI和高通合作研发移动端芯片、字节豆包走合作硬件轻资产路线，本质上都是在应对这一成本压力——V4的存在，使所有厂商的硬件协同和模型端侧化计划都必须重新核算经济账。

第379集田丰对话澎湃新闻：中美AI差距，DeepSeek开源商业化

加入我们的 Discord

扫描微信二维码

播放列表

第379集 田丰对话澎湃新闻：中美AI差距，DeepSeek开源商业化

加入我们的 Discord

扫描微信二维码

播放列表

第379集田丰对话澎湃新闻：中美AI差距，DeepSeek开源商业化