logo头像

人生之短,取该取舍该舍

ACER论文总结

ACER论文总结

[TOC] 1 问题及创新点应用层面 AI领域最近的一些核心突破都是在获得更加真实的模拟环境上,这使得更多的环境信息可被agent观测到,但这也增加了模拟代价,因为问题变得更复杂了,agent需要探索的范围更大了。且agent每采...

PPO论文总结

PPO论文总结

1 问题及创新点应用层面 现在很多使用神经网络近似函数的RL算法都各有各的缺点,如Q-learning在很多简单问题上失败了,且 is poorly understood, vanilla PG算法样本效率低、不鲁棒,TRPO相对比较...

K-FAC方法总结

K-FAC方法总结

1 摘要神经网络中的Fisher信息矩阵,既不是对角的,也不是低秩的,并且在某些情况下是完全非稀疏的,因此求逆往往十分复杂。而本文提出的K-FAC是一种可以有效近似神经网络中Fisher信息矩阵的逆的方法,它将Fisher信息矩阵的各...

DDPG论文总结

DDPG论文总结

[TOC] 1 问题及创新点应用层面 把强化学习应用在复杂控制问题上时,智能体必须在众多可选行动中找到合适的一个,这使得计算量非常大。而对于某些实际应用问题,如机器人控制,这时往往需要连续的控制来使智能体在随机选择动作时能够学到足...

ACKTR论文总结

ACKTR论文总结

[TOC] 1 问题及创新点应用层面 Deep RL方法使用Deep NN来表示控制策略,尽管效果很好,但一般需使用简单的随机梯度下降法(SGD)来实现神经网络的训练。而SGD和一阶优化方法(如梯度下降法)的样本效率一般较低,这使...

GTD算法总结

GTD算法总结

摘要我认为以下方法应称之为价值梯度(Value Gradient)方法,简称VG方法,相对于Policy Gradient(PG)方法,它没有用梯度上升法更新策略,而只用梯度上升法更新值函数。因此,VG方法是一种value-based...