[人人能懂AI前沿] 流形操纵、无损植入与高质量反馈
AI可可AI生活

[人人能懂AI前沿] 流形操纵、无损植入与高质量反馈

27分钟 159 1个月前
节目简介
来源:小宇宙

你有没有想过,一个“太聪明”的AI,反而会学会钻空子,导致整个系统一起“变笨”?你是否好奇,AI大脑的内部结构可能不是我们想象的开放广场,而是一张弯弯绕绕的精密地图?本期节目,我们将一起潜入AI的“心智世界”,看看最新论文是如何教会AI拥有“远见”来避免自我毁灭,如何像开赛车一样在它大脑的“流形赛道”上精准驰骋,甚至是如何用“不开刀”的方式给它无损植入新知识。更重要的是,我们会发现,原来给AI提建议和给它参考资料,都可能是在“越帮越忙”。准备好了吗?让我们一起挑战关于AI的四个“想当然”。

00:00:45 当AI学会了钻空子,我们如何防止它“聪明反被聪明误”?

00:06:20 AI的“脑回路”长啥样?我们可能一直都搞错了

00:10:56 AI升级难题,一个“不开刀”的手术方案

00:16:04 为什么夸人“你真棒”是最低效的鼓励?

00:20:33 给AI帮忙,为何会越帮越忙?

本期介绍的几篇论文:

[LG] Explaining and Preventing Alignment Collapse in Iterative RLHF

[PSL Research University]

https://arxiv.org/abs/2605.04266

---

[LG] Manifold Steering Reveals the Shared Geometry of Neural Network Representation and Behavior

[GOODFIRE]

https://arxiv.org/abs/2605.05115

---

[LG] Memory as a Markov Matrix: Sample Efficient Knowledge Expansion via Token-to-Dictionary Mapping

[New Jersey Institute of Technology & UC Berkeley]

https://arxiv.org/abs/2605.04308

---

[LG] Efficiently Aligning Language Models with Online Natural Language Feedback

[Stanford University & Anthropic]

https://arxiv.org/abs/2605.04356

---

[LG] When Context Hurts: The Crossover Effect of Knowledge Transfer on Multi-Agent Design Exploration

[Meta]

https://arxiv.org/abs/2605.04361


在小宇宙查看该单集文稿

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧