Album
时长:
34分钟
播放:
452
发布:
9个月前
主播...
简介...
https://xiaoyuzhoufm.com

想理解 Deepseek 中的 GROP 等强化学习算法,最好先理解强化学习之 PPO 算法,



理解 PPO 并不难,只需要先梳理清楚几个概念之间的区别,

1. Reward vs Value vs Advantage,

2. Model-free vs model-based,

3. On-policy vs Off-policy,

4. Policy-based vs Value-based,



然后理解 Advantage Actor Critic (A2C) 算法的设计思路,

1. 构建学生 actor 和导师 critic 两个神经网络,

2. 学生 actor 神经网络,追求 advantage 的优化,是 policy-based 模型,

3. 导师 critic 神经网络,追求全局 value 的最优化,是 value-based 模型,

4. 导师指导学生,从而避免学生过度激进,导致训练崩溃,



到这时,理解作为 A2C 模型的改进版 PPO,

以及 Deepseek 在 PPO 基础上,进一步做的三个改进,

就水到渠成了。

评价...

空空如也

小宇宙热门评论...
HD583692g
8个月前 广东
2
拼写错误,应该是GRPO
HD834781e
5个月前 上海
1
grpo,怎么感觉你不懂啊
HoshinoRen
8个月前 北京
0
讲得有些混乱
东耳95
7个月前 上海
0
无人驾驶应该都不是强化学习
EarsOnMe

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧