AC A2C A3C

Jace Lau

2022-04-10

2022

Page content

AC&A2C&A3C

Actor-Critic类的强化学习算法是Policy Gradient和Value Based方法的集合体。

从Policy Gradient到AC方法演进：

传统梯度策略更新的方法，是对某一轮次的任务进行充分采样，计算其累计折扣奖励，然后反向梯度更新策略。但是这样的采样具有随机性，且累计奖励不稳定，采样到较差的结果时，会对训练造成较差的影响。为了解决这个问题，引入基于值的强化学习的思想，将对累计奖励的采用，改为对累计奖励期望的预测，而这个值恰恰是动作值函数Q值。此时梯度更新公式中的两个计算参数变成了Q和Q的期望值函数V。AC算法变成了对两个神经网络Q网络和V网络的训练。

从AC算法到A2C(Advantage Actor-Critic):

由于训练两个网络进行参数更新，引入了两重的不确定性。sutton等人提出引入优势函数，即用当前轮次的奖励和下一轮次的值函数来近似Q值。由此Q=r+V_next,整体就变成了r+V_next-V。此时只需要训练一个V网络即可完成模型的训练。

A3C(Asynchronous Advantage Actor-Critic算法)：

是A2C算法的并发异步版本。设计了一个Learner(主学习模型)和多个worker(并行学习模型)的结构。其中worker每次训练前从Learner复制网络参数，和网络交互计算得到更新梯度，返回给Learner进行参数更新。多个workers并行训练。这种设计不需要经验复用池，且并发，大大加快了训练速度。