Dynadot 搬瓦工 腾讯云
共 1 篇文章

标签:PPO2

强化学习算法 TRPO、PPO、PPO2 的主要区别-老唐笔记

强化学习算法 TRPO、PPO、PPO2 的主要区别

PPO 在原目标函数的基础上添加了 KL divergence 部分,用来表示两个分布之前的差别,差别越大则该值越大。那么施加在目标函数上的惩罚也就越大,因此要尽量使得两个分布之间的差距小,才能保证较大的目标函数。 TRPO 与 PPO 之...

赞(0)老唐老唐科研