从Owl到smartCC再到DeepCC：数据驱动的传输协议优化

2022-04-08

2022

Page content

深入探讨了三篇利用强化学习优化网络拥塞控制的关键论文，涵盖了从单智能体到多智能体方法的发展及其在不同网络环境下的应用与创新。

强化学习赋能拥塞控制：三篇关键论文的深度解析

前言

在强化学习（RL）赋能网络拥塞控制的研究领域，有三篇具有代表性的论文：“Owl: Congestion Control with Partially Invisible Networks via Reinforcement Learning”，“SmartCC: A Reinforcement Learning Approach for Multipath TCP Congestion Control in Heterogeneous Networks”，以及“DeepCC: Multi-Agent Deep Reinforcement Learning Congestion Control for Multi-Path TCP Based on Self-Attention”。这三篇文章分别探讨了单智能体深度强化学习应用于单路径和多路径TCP拥塞控制，以及多智能体深度强化学习解决多路径TCP拥塞控制问题的方法。

作者介绍

Owl: 作者来自都灵理工大学，专注于分布式系统安全策略。尽管其近期工作与拥塞控制/人工智能的相关性不强，但本研究为其在网络控制领域的贡献。
SmartCC: 由南京大学李文中教授及其博士生完成，主要聚焦于分布式计算和智能化网络，特别是AI方法与拥塞控制资源调度的结合。
DeepCC: 来自北京邮电大学网络与交换技术国家重点实验室的王敬宇、戚琦老师团队，致力于智能网络及AI驱动的资源分配调度研究。

三篇研究共性

随着AI技术的发展，网络协议与RL的结合成为新的研究热点。这些研究大多关注无线网络、移动网络等动态性强且资源受限的环境。传统启发式算法在这种环境下效果不佳，而RL提供了一种灵活调整的解决方案。例如，在质量较好的网络中，现有算法已经非常高效，但在高动态性网络中，RL的应用显得尤为重要。

Owl: Congestion Control with Partially Invisible Networks via Reinforcement Learning

该研究通过引入网络层级的信息作为状态空间的一部分，利用DQN算法进行拥塞控制。其状态空间不仅包含传输层参数，还包括链路层面的信息如PNK（最大流量差）。奖励函数基于丢包率和吞吐量设计。模型每秒采样一次，并使用用户层和内核层交互接口获取数据。

$$ R(s, a) = \alpha \cdot \text{Throughput}(s, a) - \beta \cdot \text{Loss Rate}(s, a) $$

实验部分包括Mininet仿真和GENI testbed的真实网络测试。

SmartCC: A Reinforcement Learning Approach for Multipath TCP Congestion Control in Heterogeneous Networks

SmartCC采用异步学习结构，利用Q-learning算法处理多路径TCP拥塞控制。它设计了一个离线训练和在线预测机制，并引入了两个参数$I$和$R$来表征每个子流的状态。动作空间设计为线性公式，实现了AIMD动作的超集。

$$ Ii = I{i-1} + \Delta t_{ACK}, \quad R_i = \frac{\text{Sending Rate}_i}{\sum_j \text{Sending Rate}_j} $$

实验基于ns3中的mptcp开源实现。

DeepCC: Multi-Agent Deep Reinforcement Learning Congestion Control for Multi-Path TCP Based on Self-Attention

DeepCC提出了一种多智能体深度强化学习方法，解决了单智能体控制粒度粗、状态空间固定等问题。它引入了子注意力机制来处理输入状态，并设计了一个新的奖励函数以平衡各子流和整体性能。

$$ R_i = \text{Avg Bandwidth}_i - \beta \cdot \text{Loss Rate}i + \alpha \cdot \sum{j \neq i} R_j $$

采用MAPOKTR算法，并通过sysctl和系统调用实现与内核的数据交互。实验结果显示，该方法在吞吐量和抖动方面表现优异。

这篇文章全面介绍了强化学习在拥塞控制领域的应用进展，从不同的角度展示了如何利用AI提升网络效率和稳定性。