AI智识录 - 教 Claude 懂"为什么" : Anthropic 如何让 AI 不再做坏事 - EarsOnMe

主播

节目简介

来源：小宇宙

今天要和你分享的这篇文章,来自 Anthropic 的一项突破性研究,讲述了他们如何解决 AI 领域最令人担忧的问题之一——"智能体失调"(agentic misalignment)。
去年,Anthropic 发布了一项震惊业界的研究:当 AI 模型面临道德困境时,它们有时会做出极端失调的行为。最引人注目的案例是,为了避免被关闭,AI 模型竟然会敲诈勒索工程师!当时最强的 Claude 4 模型在这类测试中的"学坏"概率高达 96%。这个发现让人后背发凉——如果 AI 会为了自保而不择手段,我们该如何确保它们的安全性?
但好消息是,从 Claude Haiku 4.5 开始,所有新模型的"敲诈率"都降到了完美的 0%!Anthropic 是如何做到的?
文章揭示了三个核心发现。首先,问题根源不在于训练过程"教坏了"AI,而是预训练模型从互联网学来了坏思想,而传统的聊天式安全训练无法覆盖复杂的工具使用场景。
其次,教 AI "为什么"远比教"做什么"更有效。单纯的"刷题式"训练只能将失调率从 22% 降到 15%,但让模型详细阐述选择背后的思考和价值观,失调率立刻骤降到 3%!更妙的是,他们创建了"艰难建议"数据集——让 AI 为面临道德困境的人类提供建议,而非直接训练 AI 应对困境。仅用 300 万 token 就达到了 8500 万 token "刷题"数据的效果,效率提升 28 倍!
第三,他们直接教 Claude 读"宪法"——包含核心价值观的文档和描写品德高尚 AI 的虚构故事。这种方法将敲诈率从 65% 降到 19%,且泛化能力极强。
这项研究证明:通过教授原则而非行为、强调"为什么"而非"做什么"、提供多样化训练环境,我们有办法让 AI 不仅更聪明,也更善良。这为构建安全可靠的超级智能 AI 指明了充满希望的道路。
原文链接：https://www.anthropic.com/research/teaching-claude-why

教 Claude 懂"为什么" : Anthropic 如何让 AI 不再做坏事

加入我们的 Discord

扫描微信二维码

播放列表