 

Dynadot

搬瓦工

腾讯云

搬瓦工

共 2 篇文章

标签：强化学习

强化学习算法 TRPO、PPO、PPO2 的主要区别-老唐笔记

强化学习算法 TRPO、PPO、PPO2 的主要区别

PPO 在原目标函数的基础上添加了 KL divergence 部分，用来表示两个分布之前的差别，差别越大则该值越大。那么施加在目标函数上的惩罚也就越大，因此要尽量使得两个分布之间的差距小，才能保证较大的目标函数。 TRPO 与 PPO 之...

老唐2023-02-17科研

创建自定义 OpenAI Gym 强化学习环境的方法-老唐笔记

创建自定义 OpenAI Gym 强化学习环境的方法

最近几天在写论文的实验，由于用到了强化学习，所以想写成 OpenAI Gym 那样的环境，或者至少是类似的。这样之后调用强化学习算法的时候也简单一些，不需要做太多的修改。当然，核心的网络部分以及输入输出等还是需要自己来写或者修改的。目前老唐...

老唐2021-01-09科研

回顶部