主播
节目简介
来源:小宇宙
【节目简介】
Qwen团队前核心成员林俊阳(已离职)发表了一篇引发全行业思考的文章:
AI正在从"推理思维"转向"能动思维"——不是想得更久,而是为了行动而思考。
本期播客深度拆解这篇文章的六大核心论点,从o1/R1的教训,到Qwen3合并模式的坦诚反思,再到Agentic AI基础设施的全新挑战。
【时间线】
01:00 林俊阳是谁 · 为什么这篇文章重要
02:30 o1和R1的崛起教会了什么 · 确定性反馈信号
05:00 合并思考与指令模式 · 两种目标打架
07:30 Qwen3的坦诚反思 · "我们没有做对所有的事情"
09:30 Anthropic的集成哲学 · 不是开关而是连续体
11:30 Agentic Thinking核心 · 从考试到打游戏
14:00 五个全新问题 · 何时停止思考 何时行动
16:00 Agent RL vs 推理RL · 安静教室vs嘈杂工地
18:30 环境成为一等公民 · 数据为王→环境为王
20:30 奖励攻击 · AI学会作弊
23:00 多Agent系统的未来 · 从模型到Agent到系统
25:00 竞争优势来源变了 · 环境设计+系统集成
26:30 AI的下一步不是想得更久而是做得更好
========================================
【核心观点】
· 推理思维问"模型能否想够久",能动思维问"模型能否边想边做"
· 合并思考和指令本质上是两种互相矛盾的行为目标——像让一个人同时当学者和客服
· Qwen3的教训:分离仍然有吸引力,合并的描述比执行容易得多
· Anthropic的方向是有用的纠正:思考应该由目标工作负载来塑造
· Agent RL的基础设施远比推理RL复杂——环境不再是验证器而是训练系统的一部分
· 奖励攻击是Agent时代最大隐患:更好的工具=更大的作弊攻击面
· 竞争优势从RL算法转向环境设计、系统集成、控制装置工程
· 从训练模型→训练Agent→训练系统
========================================
【关于一支烟花】
一支烟花是一个关注AI前沿动态的创作者社区 公众号:一支烟花AI 欢迎加入社群交流
Qwen团队前核心成员林俊阳(已离职)发表了一篇引发全行业思考的文章:
AI正在从"推理思维"转向"能动思维"——不是想得更久,而是为了行动而思考。
本期播客深度拆解这篇文章的六大核心论点,从o1/R1的教训,到Qwen3合并模式的坦诚反思,再到Agentic AI基础设施的全新挑战。
【时间线】
01:00 林俊阳是谁 · 为什么这篇文章重要
02:30 o1和R1的崛起教会了什么 · 确定性反馈信号
05:00 合并思考与指令模式 · 两种目标打架
07:30 Qwen3的坦诚反思 · "我们没有做对所有的事情"
09:30 Anthropic的集成哲学 · 不是开关而是连续体
11:30 Agentic Thinking核心 · 从考试到打游戏
14:00 五个全新问题 · 何时停止思考 何时行动
16:00 Agent RL vs 推理RL · 安静教室vs嘈杂工地
18:30 环境成为一等公民 · 数据为王→环境为王
20:30 奖励攻击 · AI学会作弊
23:00 多Agent系统的未来 · 从模型到Agent到系统
25:00 竞争优势来源变了 · 环境设计+系统集成
26:30 AI的下一步不是想得更久而是做得更好
========================================
【核心观点】
· 推理思维问"模型能否想够久",能动思维问"模型能否边想边做"
· 合并思考和指令本质上是两种互相矛盾的行为目标——像让一个人同时当学者和客服
· Qwen3的教训:分离仍然有吸引力,合并的描述比执行容易得多
· Anthropic的方向是有用的纠正:思考应该由目标工作负载来塑造
· Agent RL的基础设施远比推理RL复杂——环境不再是验证器而是训练系统的一部分
· 奖励攻击是Agent时代最大隐患:更好的工具=更大的作弊攻击面
· 竞争优势从RL算法转向环境设计、系统集成、控制装置工程
· 从训练模型→训练Agent→训练系统
========================================
【关于一支烟花】
一支烟花是一个关注AI前沿动态的创作者社区 公众号:一支烟花AI 欢迎加入社群交流
小宇宙热评
Zwei_X
1个月前
广东
0
主播是ai吗?