论文部分内容阅读
近来,随着5G技术的飞速发展,如何在未来的移动网络中,结合SDN和NFV技术,采用网络切片的方式来满足网络中多样化业务的差异化服务需求,已成为了一个热点研究问题。随着网络切片的引入,使得服务提供商的角色分离。一方面,由于底层资源有限,如何对多个切片进行资源合理分配,直接影响到上层切片消费者的利益。另一方面,切片完成部署以后,在一个较长的时间尺度上,切片总的可用网络资源往往保持不变,但在网络切片的内部,随着用户业务流的到达和离开,需要动态调整切片内部资源的分配策略,才能满足网络中动态变化业务服务需求。在资源受限的网络中,为了最大化用户服务质量和切片消费者的利益,研究切片资源的重配置是极具挑战性的。本文主要研究内容如下:第一部分在有业务流到达/离开的短时间尺度场景下,研究了核心网切片内部带宽资源和节点处理资源的动态配置问题。以最大化用户满意度为目标,将此问题建模为一个马尔科夫决策过程(MDP)。根据强化学习的理论,我们采用了ActorCritic算法对此问题进行求解,并设计了相应的切片资源动态优化配置算法。通过仿真实验,验证了我们提出算法的有效性。数值结果表明,与传统的资源配置算法进行相比,我们提出的AC算法的能够使业务流获得更好的服务质量。第二部分以网络切片为整体,考虑多条业务流之间的相互影响,提出了一种基于多智体强化学习的智能动态重构策略。由于不同业务流可能会经过相同的路径或节点,涉及到相同路径的带宽资源或者相同节点VNF实例资源的抢占,因此将其建模为一个多用户随机博弈,采用多智体强化学习理论(MARL)进行求解,并在此基础上提出了一种分布式的多智体强化学习算法。最后通过仿真实验,验证了本文提出重构算法的有效性,并与传统典型的算法相比,我们提出的算法能让切片内部用户业务流的总体满意度最大。第三部分从网络系统整体角度来考虑不同运营商的切片资源应该如何分配,在保护各个运营商的数据隐私的前提下,最大化切片消费者的总体利益。采用联邦学习方法,在不同运营商之间构建一个虚拟全局模型OM,不需要从每个切片中导出所有的数据,每个切片对自己的数据有自主权,允许将收集到的数据保存在本地,采用DQN算法独自训练本地模型,只需在加密机制下进行全局和局部参数传递并更新,直到各个参数基本不变为止。最后通过仿真验证了数据分布式训练的方式,不但提高了效率,使整个算法的性能更优,用户数据隐私也得到了很好的保护。