主播
节目简介
来源:小宇宙
节目介绍
本期播客聚焦"AI 模型跑分榜单"这件事。
借 Claude Opus 4.7 发布放出的那张跑分表为切入点,三位主播辛宝、smart、还老师一起把 SWE-bench(含 Verified 与 Pro 三代演进)、Terminal-Bench、Humanity's Last Exam、GPQA、MMLU、OSWorld、ARC-AGI 等主流榜单挨个做了一轮"查漏补缺式"的科普,讲清楚每个榜单在考什么、为什么分数有高有低、以及厂商为何爱针对性刷分。横向对比了 GPT-5.4、Gemini 3.1 Pro,以及国产御三家 GLM-5.1、MiniMax-2.7、Kimi-2.5、千问 3.6 的发布榜单,并回看一年前 DeepSeek V3 的分数作为参照。最后从 OpenRouter 用量榜看 token 消耗格局——从"程序员才能用多少"到"Agent才能用多少"的演进。适合想快速补齐榜单常识、又不想看长篇 benchmark 文章的听友。
参考 www.anthropic.com
时间轴
00:00:00 开场 / 三人介绍,引出话题
00:01:40 Claude Opus 4.7 发布,跑分表结构说明
00:05:00 SWE-bench 三代演进:普通 / Verified / Pro
00:12:30 Terminal-Bench 2.0:AI 会不会用终端
00:13:30 跑分水分讨论:针对题库做定向训练
00:16:00 Humanity's Last Exam:博士级无答案考题
00:21:30 BrowseComp、MCP 工具调用、OSWorld 电脑操作
00:23:30 Finance 金融分析榜
00:25:40 骇客 / 红蓝对抗测试
00:27:30 GPQA 硕博理工、视觉推理、MMLU 通识
00:29:30 GPT-5.4 发布榜单速览
00:31:30 Gemini 3.1 Pro 榜单 & GDP 国家模拟游戏
00:33:00 ARC-AGI 抽象推理(类行测找规律)
00:35:30 国产模型:GLM-5.1 长任务 NL2Repo
00:37:30 MiniMax-2.7、Kimi-2.5 多模态榜
00:39:30 千问 3.6 开源版 / 闭源版对比
00:42:30 回看一年前 DeepSeek V3:对比今昔分数
00:45:00 编程榜快刷到头,下一步卷哪里?
00:48:30 体感与榜单不匹配:场景切合度决定
00:50:30 OpenRouter 用量榜介绍
00:53:00 Token 消耗一年翻数倍:谁在真正消耗
00:56:00 智能 / 编程 / UI / SVG 等细分跑分
00:59:30 吞吐速度、上下文长度、中文能力榜
01:02:30 爱马仕 Agent 崛起 & 工具调用占比
01:03:30 结束语
本期播客聚焦"AI 模型跑分榜单"这件事。
借 Claude Opus 4.7 发布放出的那张跑分表为切入点,三位主播辛宝、smart、还老师一起把 SWE-bench(含 Verified 与 Pro 三代演进)、Terminal-Bench、Humanity's Last Exam、GPQA、MMLU、OSWorld、ARC-AGI 等主流榜单挨个做了一轮"查漏补缺式"的科普,讲清楚每个榜单在考什么、为什么分数有高有低、以及厂商为何爱针对性刷分。横向对比了 GPT-5.4、Gemini 3.1 Pro,以及国产御三家 GLM-5.1、MiniMax-2.7、Kimi-2.5、千问 3.6 的发布榜单,并回看一年前 DeepSeek V3 的分数作为参照。最后从 OpenRouter 用量榜看 token 消耗格局——从"程序员才能用多少"到"Agent才能用多少"的演进。适合想快速补齐榜单常识、又不想看长篇 benchmark 文章的听友。
参考 www.anthropic.com
时间轴
00:00:00 开场 / 三人介绍,引出话题
00:01:40 Claude Opus 4.7 发布,跑分表结构说明
00:05:00 SWE-bench 三代演进:普通 / Verified / Pro
00:12:30 Terminal-Bench 2.0:AI 会不会用终端
00:13:30 跑分水分讨论:针对题库做定向训练
00:16:00 Humanity's Last Exam:博士级无答案考题
00:21:30 BrowseComp、MCP 工具调用、OSWorld 电脑操作
00:23:30 Finance 金融分析榜
00:25:40 骇客 / 红蓝对抗测试
00:27:30 GPQA 硕博理工、视觉推理、MMLU 通识
00:29:30 GPT-5.4 发布榜单速览
00:31:30 Gemini 3.1 Pro 榜单 & GDP 国家模拟游戏
00:33:00 ARC-AGI 抽象推理(类行测找规律)
00:35:30 国产模型:GLM-5.1 长任务 NL2Repo
00:37:30 MiniMax-2.7、Kimi-2.5 多模态榜
00:39:30 千问 3.6 开源版 / 闭源版对比
00:42:30 回看一年前 DeepSeek V3:对比今昔分数
00:45:00 编程榜快刷到头,下一步卷哪里?
00:48:30 体感与榜单不匹配:场景切合度决定
00:50:30 OpenRouter 用量榜介绍
00:53:00 Token 消耗一年翻数倍:谁在真正消耗
00:56:00 智能 / 编程 / UI / SVG 等细分跑分
00:59:30 吞吐速度、上下文长度、中文能力榜
01:02:30 爱马仕 Agent 崛起 & 工具调用占比
01:03:30 结束语