论文部分内容阅读
近年来,深度学习技术取得了迅猛发展,并在安防、电商和金融等重要民生领域实现了规模化落地应用。然而,随着当前移动终端和物联网设备的高速普及,如何高效地将深度学习模型从云端下沉到网络边缘,进而解决人工智能落地的“最后一公里”问题已经引起了学术界与工业界的高度关注。针对上述难题,边缘智能概念应运而生。基于边缘计算这一新型计算模式,边缘智能在更加靠近用户和数据源头的网络边缘侧位置训练和部署深度学习模型,从而改善深度学习应用的运营成本和用户体验。为了将边缘智能推广至更广阔的应用场景,其性能与成本的协同优化是当前急需解决的主要难题,研究该问题具有重要的理论和实践意义。针对这一难题,所提出的面向边缘智能的大数据处理性能与成本协同优化机制分别从数据预处理、模型训练和模型部署三个阶段出发,深入研究了边缘智能各阶段的性能与成本协同优化问题。通过克服系统异构性、高度动态性、大规模性和资源供需失衡等挑战,分别提出了面向跨域分布式数据处理的数据和任务放置优化机制、面向边缘连续学习的数据调度和资源配置优化机制、面向边缘推理服务的模型选择和资源配置优化机制。面向跨域分布式数据处理的数据和任务放置优化。跨域分布式边缘节点间的网络带宽存在显著异构性。此性质使跨域分布式数据处理应用的中间数据混洗阶段面临网络传输延迟不均衡问题,从而影响总体性能。针对这一挑战,提出了数据与任务放置协同优化机制,该机制基于数据分布和网络资源异构性协同优化输入数据和输出任务放置,从而平衡网络传输延迟,提升中间数据混洗阶段性能。然而,即使针对单一查询请求,由于输入数据放置优化和输出任务放置优化的时间尺度不一致且相互耦合,上述问题仍然面临多时间尺度和非凸性两方面挑战。针对上述挑战,提出的优化算法综合运用基于预测的两阶段优化分解和凸优化松弛方法高效近似求解上述非凸优化问题。在此基础上,通过改进经典最短剩余处理时间策略,进一步提出了面向多查询请求的输入数据、输出任务和边缘资源协同调度与分配机制。基于真实任务负载的仿真实验表明,所提出的优化算法最高可将总成本降低83%。面向边缘连续学习的数据调度和资源配置优化。受制于有限的边缘资源供给,部署于边缘节点的深度学习模型通常为压缩得到的轻量模型。然而,在部署过程中,随着实时推理样本逐渐偏离模型所能表征的特征空间,推理精度会逐渐下降。针对这一问题,提出了连续学习概念,其以增量的方式周期性地对动态到达的新数据样本进行模型重训练,从而保持模型精度。同时,现有商业边缘智能平台如AWS Greengrass和Cloud Io T Edge均在云端进行模型重训练,引发了高昂的成本开销。针对这一难题,提出了面向边缘连续学习的数据调度和资源配置优化机制,该机制以云边协同方式执行模型重训练,通过利用模型重训练的延迟容忍性、数据灵活性和资源成本波动性,动态优化训练样本的准入控制、传输调度和资源配置策略,从而在降低长期资源成本的同时提升模型训练精度。然而在上述问题中,动态变化的输入参数(如未来样本的到达率)通常难以预测。针对这一挑战提出的在线优化框架,基于李雅普诺夫方法分析并设计了一个无需预测未来信息即可在线作出近似最优决策的在线优化算法,以实现长期资源成本与模型精度之间的动态自适应平衡优化。面向边缘推理服务的模型选择和资源配置优化。随着边缘智能在越来越多的应用场景落地部署,边缘推理服务的性能与成本优化问题将成为制约其可持续发展的重要问题。针对这一难题,提出了模型选择和资源配置协同优化机制。该机制基于不同模型所具备的不同延迟-精度-资源特性动态优化模型选择和资源配置,从而平衡优化推理延迟、精度和资源成本。由于上述问题为NP难的线性整数规划问题,因此如何设计面向大规模应用场景的高效近似优化算法成为了亟需解决的关键挑战。针对这一挑战,提出了基于随机舍入的近似优化算法。该算法首先将整数优化问题放缩为易于求解的线性优化问题,在此基础上,针对求解得到的小数形式资源配置决策,进一步设计了随机关联舍入算法,通过将两个随机选择的资源配置分数解,以一定的概率将其中一个向上取整,另外一个向下取整,来修正小数解,从而保证在满足节点资源容量限制的同时降低总体开启的容器个数,以达到降低成本的目的。严格的理论分析表明,所提出的近似算法相对理论最优解具有可证明的近似比。