老唐笔记 - 记录互联网生活老唐笔记 - 记录互联网生活老唐笔记

Dynadot 搬瓦工 腾讯云

最新发布 第28页

强化学习算法 TRPO、PPO、PPO2 的主要区别-老唐笔记

强化学习算法 TRPO、PPO、PPO2 的主要区别

PPO 在原目标函数的基础上添加了 KL divergence 部分,用来表示两个分布之前的差别,差别越大则该值越大。那么施加在目标函数上的惩罚也就越大,因此要尽量使得两个分布之间的差距小,才能保证较大的目标函数。 TRPO 与 PPO 之...

赞(0)老唐老唐科研
LaTex 如何设置表格的字体大小(字号)-老唐笔记

LaTex 如何设置表格的字体大小(字号)

今天使用了 \usepackage{floatrow} 这个包之后发现表格的字体都变大了,很奇怪,字号大了一号。于是网上搜索了一下 LaTex 表格怎么设置字体大小,本文做个记录(原文链接)。 LaTex设置表格字体大小格式为: \begi...

赞(1)老唐老唐科研