 

Dynadot

搬瓦工

腾讯云

搬瓦工

共 2 篇文章

标签：PPO

强化学习算法 TRPO、PPO、PPO2 的主要区别-老唐笔记

强化学习算法 TRPO、PPO、PPO2 的主要区别

PPO 在原目标函数的基础上添加了 KL divergence 部分，用来表示两个分布之前的差别，差别越大则该值越大。那么施加在目标函数上的惩罚也就越大，因此要尽量使得两个分布之间的差距小，才能保证较大的目标函数。 TRPO 与 PPO 之...

老唐2023-02-17科研

PyTorch PPO 源码解读 (pytorch-a2c-ppo-acktr-gail)-老唐笔记

PyTorch PPO 源码解读 (pytorch-a2c-ppo-acktr-gail)

论文告一段落，今天开始会陆续整理一下之前论文用到的一些代码，做一个后续整理工作，以备之后有需要的时候再用。本文整理一下 PyTorch PPO 源码解读，这份解读对快速理解 PPO 代码的帮助还是挺大的，之前了解过 PPO 但是还没有写过代...

老唐2021-04-17科研

回顶部