AC A2C A3C

Page content

AC&A2C&A3C

Actor-Critic类的强化学习算法是Policy Gradient和Value Based方法的集合体。

从Policy Gradient到AC方法演进:

传统梯度策略更新的方法,是对某一轮次的任务进行充分采样,计算其累计折扣奖励,然后反向梯度更新策略。但是这样的采样具有随机性,且累计奖励不稳定,采样到较差的结果时,会对训练造成较差的影响。为了解决这个问题,引入基于值的强化学习的思想,将对累计奖励的采用,改为对累计奖励期望的预测,而这个值恰恰是动作值函数Q值。此时梯度更新公式中的两个计算参数变成了Q和Q的期望值函数V。AC算法变成了对两个神经网络Q网络和V网络的训练。

从AC算法到A2C(Advantage Actor-Critic):

由于训练两个网络进行参数更新,引入了两重的不确定性。sutton等人提出引入优势函数,即用当前轮次的奖励和下一轮次的值函数来近似Q值。由此Q=r+V_next,整体就变成了r+V_next-V。此时只需要训练一个V网络即可完成模型的训练。

A3C(Asynchronous Advantage Actor-Critic算法):

是A2C算法的并发异步版本。设计了一个Learner(主学习模型)和多个worker(并行学习模型)的结构。其中worker每次训练前从Learner复制网络参数,和网络交互计算得到更新梯度,返回给Learner进行参数更新。多个workers并行训练。这种设计不需要经验复用池,且并发,大大加快了训练速度。