 

当前位置：老唐笔记  科研  正文

Dynadot

搬瓦工

腾讯云

强化学习算法 TRPO、PPO、PPO2 的主要区别

2023-02-17 分类：科研

Sider

GigsGigsCloud

PPO 在原目标函数的基础上添加了 KL divergence 部分，用来表示两个分布之前的差别，差别越大则该值越大。那么施加在目标函数上的惩罚也就越大，因此要尽量使得两个分布之间的差距小，才能保证较大的目标函数。

TRPO 与 PPO 之间的差别在于它使用了 KL divergence（KL散度）作为约束，即没有放到式子里，而是当做了一个额外的约束式子，这就使得TRPO的计算非常困难，因此较少使用。两者的区别如下：

这里要注意这个 KL divergence 并不是参数之间的距离，而是 actions 之间的距离。

PPO2 不使用 KL 散度，而是利用一个 clip 函数来保证差异不大。

PPO2 通过引入了 Clip 函数，使第二项，即蓝色的虚线必须在 1 – ϵ 和 1 + ϵ 之间。

简单总结：

TRPO 使用了 KL divergence（KL散度）作为约束
PPO 将 KL 散度放到目标函数
PPO2 不适用 KL 散度，而是使用 clip 函数

————————————————
版权声明：本文为CSDN博主「工藤旧一」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/weixin_45459911/article/details/105580804

Dynadot

Hostwinds

赞(0)

版权声明：本文采用知识共享署名4.0国际许可协议 [BY-NC-SA] 进行授权
文章名称：《强化学习算法 TRPO、PPO、PPO2 的主要区别》
文章链接：https://oldtang.com/11848.html
本站资源仅供个人学习交流，请于下载后24小时内删除，不允许用于商业用途，否则法律问题自行承担。

PPO PPO 和 PPO2 区别 PPO2 TRPO TRPO 和 PPO 区别强化学习

相关推荐

回顶部