得体男孩 - Vol.45|DeepSeek R1和OpenAI o1大PK！八大场景测评结果出炉 - EarsOnMe

主播

节目简介

来源：小宇宙

经过一系列涵盖从创意写作到复杂教学等多个领域的测试，DeepSeek-R1 展现出了令人瞩目的实力，其综合表现足以与 OpenAI 的付费 “精英” 产品一较高下。事实证明，选对方法，走性价比路线同样能在 AI 竞技场上大放异彩！

DeepSeek 发布其开放权重的 R1 推理模型仅一周时间，便在海内外引起了多次轰动。它不仅训练成本只是 OpenAI 最先进的 o1 模型的一小部分，性能方面竟也能与之相抗衡。

虽说 DeepSeek 可以凭借常见的基准测试结果以及 Chatbot Arena 排行榜来证明自身模型的竞争力，但直接的使用案例往往更能直观地体现模型的实用性。为此，科技媒体 arstechnica 的资深编辑决定对 DeepSeek 的 R1 模型和 OpenAI 的 ChatGPT 模型展开一场对比测试。此次测试并非聚焦于解决最具挑战性的问题，而是着重模拟用户在日常中可能提出的各种问题。

在这次测试中，DeepSeek 的每一个回答都分别与 ChatGPT 每月 20 美元的 o1 模型以及每月 200 美元的 o1 Pro 模型进行比对，以此来评估它与 OpenAI “最先进” 产品以及大多数 AI 消费者日常使用产品相比的表现。

本次测试所使用的提示（prompt）广泛涉及创意写作、数学、指令遵循等多个领域，还包括一些特意设计得更为复杂、要求更高且更严谨的 “hard prompts”。在评判测试结果时，团队不仅考量模型回答的正确性，还兼顾了一些主观质量因素，同时参考模型输出的思维链，以便更深入地了解它们内部的运作机制。

在此提前透露一下，接下来共有 8 场 “擂台比拼”，DeepSeek：o1：o1 Pro 的比拼结果为 5:2:4。来音频听听详细比拼内容吧~

原文链接：arstechnica.com

(部分资料来源网络)

本期主播：蛋酥酥/猫猫

后期：丹尼播客制作

制作人：蛋酥酥

录制支持：KUEENDOM

Vol.45|DeepSeek R1和OpenAI o1大PK！八大场景测评结果出炉

加入我们的 Discord

扫描微信二维码

播放列表