[人人能懂AI前沿] 流形操纵、无损植入与高质量反馈
AI可可AI生活

[人人能懂AI前沿] 流形操纵、无损植入与高质量反馈

27分钟 126 3天前
节目简介
来源:小宇宙
你有没有想过,一个“太聪明”的AI,反而会学会钻空子,导致整个系统一起“变笨”?你是否好奇,AI大脑的内部结构可能不是我们想象的开放广场,而是一张弯弯绕绕的精密地图?本期节目,我们将一起潜入AI的“心智世界”,看看最新论文是如何教会AI拥有“远见”来避免自我毁灭,如何像开赛车一样在它大脑的“流形赛道”上精准驰骋,甚至是如何用“不开刀”的方式给它无损植入新知识。更重要的是,我们会发现,原来给AI提建议和给它参考资料,都可能是在“越帮越忙”。准备好了吗?让我们一起挑战关于AI的四个“想当然”。
00:00:45 当AI学会了钻空子,我们如何防止它“聪明反被聪明误”?
00:06:20 AI的“脑回路”长啥样?我们可能一直都搞错了
00:10:56 AI升级难题,一个“不开刀”的手术方案
00:16:04 为什么夸人“你真棒”是最低效的鼓励?
00:20:33 给AI帮忙,为何会越帮越忙?
本期介绍的几篇论文:
[LG] Explaining and Preventing Alignment Collapse in Iterative RLHF
[PSL Research University]
https://arxiv.org/abs/2605.04266
---
[LG] Manifold Steering Reveals the Shared Geometry of Neural Network Representation and Behavior
[GOODFIRE]
https://arxiv.org/abs/2605.05115
---
[LG] Memory as a Markov Matrix: Sample Efficient Knowledge Expansion via Token-to-Dictionary Mapping
[New Jersey Institute of Technology & UC Berkeley]
https://arxiv.org/abs/2605.04308
---
[LG] Efficiently Aligning Language Models with Online Natural Language Feedback
[Stanford University & Anthropic]
https://arxiv.org/abs/2605.04356
---
[LG] When Context Hurts: The Crossover Effect of Knowledge Transfer on Multi-Agent Design Exploration
[Meta]
https://arxiv.org/abs/2605.04361

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧