时长:
34分钟
播放:
452
发布:
9个月前
主播...
简介...
想理解 Deepseek 中的 GROP 等强化学习算法,最好先理解强化学习之 PPO 算法,
理解 PPO 并不难,只需要先梳理清楚几个概念之间的区别,
1. Reward vs Value vs Advantage,
2. Model-free vs model-based,
3. On-policy vs Off-policy,
4. Policy-based vs Value-based,
然后理解 Advantage Actor Critic (A2C) 算法的设计思路,
1. 构建学生 actor 和导师 critic 两个神经网络,
2. 学生 actor 神经网络,追求 advantage 的优化,是 policy-based 模型,
3. 导师 critic 神经网络,追求全局 value 的最优化,是 value-based 模型,
4. 导师指导学生,从而避免学生过度激进,导致训练崩溃,
到这时,理解作为 A2C 模型的改进版 PPO,
以及 Deepseek 在 PPO 基础上,进一步做的三个改进,
就水到渠成了。
评价...
空空如也
小宇宙热门评论...
HD583692g
8个月前
广东
2
拼写错误,应该是GRPO
HD834781e
5个月前
上海
1
grpo,怎么感觉你不懂啊
HoshinoRen
8个月前
北京
0
讲得有些混乱
东耳95
7个月前
上海
0
无人驾驶应该都不是强化学习