AI可可AI生活 - [人人能懂AI前沿] AI的内心独白：世界模型、自我裁判与安全惯性 - EarsOnMe

主播

节目简介

来源：小宇宙

今天，我们要探讨如何让AI从一个只会“动嘴”的聊天伙伴，进化成一个真正“会看、会想、会动手”的智能体。我们会看到，最新论文如何让AI‘开眼看世界’，在脑中建立起预测未来的‘导航系统’，并从海量普通文本中自我启蒙，学会判断好坏。更重要的是，当AI要替我们行动时，它又是如何学会‘三思而后行’，在‘有用’和‘安全’之间找到那条微妙的平衡线呢？准备好了吗？让我们一起探寻AI从‘愣头青’到‘老司机’的进化之路。
00:00:40 AI为什么要“开眼看世界”？
00:07:16 为什么高手都自带“导航系统”？
00:13:19 AI的“行动许可”，它在动手前，先想了什么？
00:19:12 把白开水变成高汤，AI如何从普通文本中学会“好坏”
00:24:47 如何把一个“愣头青”AI，调教成“老司机”？
本期介绍的几篇论文：
[CV] Beyond Language Modeling: An Exploration of Multimodal Pretraining
[FAIR, Meta]
https://arxiv.org/abs/2603.03276
---
[LG] What Capable Agents Must Know: Selection Theorems for Robust Decision-Making under Uncertainty
[CMU]
https://arxiv.org/abs/2603.02491
---
[LG] Learning When to Act or Refuse: Guarding Agentic Reasoning Models for Safe Multi-Step Tool Use
[Microsoft Research]
https://arxiv.org/abs/2603.03205
---
[LG] Scaling Reward Modeling without Human Supervision
[Harvard University & Cornell University]
https://arxiv.org/abs/2603.02225
---
[LG] Safety Training Persists Through Helpfulness Optimization in LLM Agents
[UC Berkeley]
https://arxiv.org/abs/2603.02229

[人人能懂AI前沿] AI的内心独白：世界模型、自我裁判与安全惯性

加入我们的 Discord

扫描微信二维码

播放列表