2022

简要介绍了Actor-Critic类强化学习算法的发展历程，从传统的策略梯度方法到AC、A2C，再到并发异步的A3C算法，探讨了它们如何逐步优化以提高训练效率和模型性能。

深入探讨了三篇利用强化学习优化网络拥塞控制的关键论文，涵盖了从单智能体到多智能体方法的发展及其在不同网络环境下的应用与创新。

对AC算法的看法：AC->A2C->A3C