AI可可AI生活 - [人人能懂] 从潜在行动、结构化生成到奖励解耦 - EarsOnMe

主播

节目简介

来源：小宇宙

我们总希望AI更像一个聪明的伙伴，而不是一个笨拙的机器。但怎样才算“聪明”？本期节目，我们将透过几篇最新的研究，一起窥探AI学习智慧的深层秘密。我们会聊到，AI如何像婴儿一样，在无声的世界里自己“悟”出万物的规律；又如何像个特工，在“聊天模式”和“任务模式”间无缝切换；我们还会探讨，如何用一把精妙的尺子，量出AI学到的究竟是“真本事”还是“假把式”，以及如何避免它在多重目标下“偏科”，甚至沦为一个只会讨好规则的“马屁精”。
00:00:39 AI学会了“无师自通”，世界将有什么不同？
00:06:21 给AI装上一个“万能遥控器”
00:12:57 AI上课也分“顿悟”和“补课”？一把尺子量出它学到了多少真本事
00:19:54 AI“偏科”怎么办？谈谈多目标奖励的艺术
00:25:33 “好学生”与“马屁精”，AI如何学会做个人
本期介绍的几篇论文：
[LG] Learning Latent Action World Models In The Wild
[FAIR at Meta]
https://arxiv.org/abs/2601.05230
---
[LG] XGrammar 2: Dynamic and Efficient Structured Generation Engine for Agentic LLMs
[Shanghai Jiao Tong University & CMU]
https://arxiv.org/abs/2601.04426
---
[LG] Excess Description Length of Learning Generalizable Predictors
[UC Berkeley & Anthropic]
https://arxiv.org/abs/2601.04728
---
[CL] GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization
[NVIDIA]
https://arxiv.org/abs/2601.05242
---
[CL] Learning to Simulate Human Dialogue
[Stanford University]
https://arxiv.org/abs/2601.04436

[人人能懂] 从潜在行动、结构化生成到奖励解耦

加入我们的 Discord

扫描微信二维码

播放列表