AI 前线 - 轻松理解强化学习之 PPO - EarsOnMe

AI 前线
轻松理解强化学习之 PPO

时长：

34分钟

播放：

452

发布：

9个月前

主播...

邓侃AI

简介...

想理解 Deepseek 中的 GROP 等强化学习算法，最好先理解强化学习之 PPO 算法，

理解 PPO 并不难，只需要先梳理清楚几个概念之间的区别，

1. Reward vs Value vs Advantage,

2. Model-free vs model-based，

3. On-policy vs Off-policy,

4. Policy-based vs Value-based,

然后理解 Advantage Actor Critic (A2C) 算法的设计思路，

1. 构建学生 actor 和导师 critic 两个神经网络，

2. 学生 actor 神经网络，追求 advantage 的优化，是 policy-based 模型，

3. 导师 critic 神经网络，追求全局 value 的最优化，是 value-based 模型，

4. 导师指导学生，从而避免学生过度激进，导致训练崩溃，

到这时，理解作为 A2C 模型的改进版 PPO，

以及 Deepseek 在 PPO 基础上，进一步做的三个改进，

就水到渠成了。