【摘 要】
:
在边缘环境下,由于监测部署成本高、测量可靠性低等原因,数据稀缺性成为一个普遍难题。迁移学习非常适合解决此类问题,其基本思想是通过任务之间共享知识来解决数据量不足的任务训练问题。然而,目前多任务迁移学习系统对于资源受限的边缘设备来说过于复杂,原因在于:首先,机器学习模型本身就是计算和通信密集型的;其次,为了避免模型过时、且利用最新数据,需要对每一个任务从头开始反复训练。在这种场景下面对计算复杂性的挑
论文部分内容阅读
在边缘环境下,由于监测部署成本高、测量可靠性低等原因,数据稀缺性成为一个普遍难题。迁移学习非常适合解决此类问题,其基本思想是通过任务之间共享知识来解决数据量不足的任务训练问题。然而,目前多任务迁移学习系统对于资源受限的边缘设备来说过于复杂,原因在于:首先,机器学习模型本身就是计算和通信密集型的;其次,为了避免模型过时、且利用最新数据,需要对每一个任务从头开始反复训练。在这种场景下面对计算复杂性的挑战,亟需解决如何提高多任务迁移学习在边缘环境下的计算效率。
为了解决上述问题,首先基于真实边缘环境下的多任务数据集定义了任务重要性,即执行该任务与不执行该任务之间的最终决策性能(如节能效果)差异。通过对任务重要性的测量实验发现,任务重要性呈明显的长尾分布且在不同环境下存在显著波动。基于此发现,首先设计了一个聚类强化学习模型,该模型利用聚类算法在历史环境中获取与当前环境相似的环境,并在此基础上进行任务分配,而这需要大量的环境观测数据来覆盖所有可能的情况。然而,由于边缘设备上数据稀缺,该模型会面对很多未曾出现的环境。为此进一步设计了一个数据驱动的协同任务分配机制,核心思想在于利用支持向量机模型来预测任务重要性,并基于实时数据动态调整聚类强化学习模型的任务分配决策。
基于真实多任务数据集的实验结果表明,所提出的数据驱动的协同任务分配机制与领域内传统的多任务迁移学习机制相比,减少了69%以上的处理时间。此外,通过将该机制应用于实际的边缘AIOps系统,进一步证明了所提出的数据驱动的协同任务分配机制的有效性。
其他文献
深度卷积神经网络(Deep convolutional neural network,DCNN)常被用于处理机器视觉的任务,包括目标检测、场景标记等。DCNN具有计算量大、数据量大、模型结构复杂多样的特点,这些特点给异构加速带来挑战。目前,大多数DCNN加速器在有限的片上资源下,使用固化的数据流处理不同的DCNN模型计算,导致性能和能效下降。 针对上述问题,提出了兼顾能耗和性能优化的灵活的可重配
随着互联网的飞速发展,数据库的应用也越来越广泛,推动着数据库性能不断优化。数据库的查询优化是数据库性能优化研究的一个重要分支,其中表连接顺序的优化几乎是所有数据库查询优化器的核心,其目的是尽可能生成执行时间更短的查询计划。由于数据库代价模型、维护的统计数据的不准确,以及连接顺序搜索算法的局限性,现有的数据库管理系统经常会错过执行时间更短的表连接顺序。 针对上述问题,提出了一种基于机器学习和蒙特卡
新兴移动应用如虚拟现实/增强现实、车联网、人工智能、高速视频流等往往要求超低的服务延迟,传统的云计算服务架构难以满足日益严苛的用户需求。边缘计算通过将资源和服务向边缘下沉,以就近执行用户任务,可以有效缓解用户设备本地计算资源不足的问题,同时避免与远端云的数据传输,从而极大地降低服务延迟,已被视为未来网络的支撑性技术之一。 然而与远端云相比,边缘云计算资源仍是有限的。如何合理地选择任务进行卸载,并
随着人工智能技术的发展,人们对对话系统的期待更多转移到沟通交流的需求。情感是影响人际沟通的重要因素,具备情感认知与表达的能力是智能的更高层级表现,其能够从更深层次理解与满足人类需求。然而目前大多数对话生成研究致力于提升回复的多样性与流畅性,忽略了情感表达的要求。融合情感认知的对话生成方法研究以对话中的情感信息为切入点,通过预测与表征对话文本中的情感信息,使对话系统具备情感感知的能力,然后将情感信息
云计算是信息时代的重要发展趋势和国家重大发展战略。近年来,全球性的网络安全事件频发,而云环境由于虚拟机同质化等缺陷,用户隐私数据安全问题更加突出。在发生安全问题后,隐私侵犯取证成为大量企业和用户进行法律维权首要面临的难题。目前虚拟环境中隐私侵犯取证研究还不完善,主要存在两个问题:一是受限于特定或单一的指令集架构、操作系统或产品;二是细粒度的实时监控会给客户机带来过大的性能开销。 针对上述问题,虚
RDF(Resource Description Framework)作为描述Web资源的标记语言,因其结构简单表达灵活的特性常用于表示图数据。SPARQL(Simple Protocol and RDF Query Language)是W3C(World Wide Web Consortium)推荐的标准RDF查询语言。随着RDF数据规模的急剧增长,如何高效响应SPARQL查询成为当前RDF图数
内存计算系统(例如Spark)已经广泛用于处理工业界的海量数据。为了提高这些系统的计算效率和鲁棒性,系统开发人员为用户提供了许多高度可配置的参数。由于高维度的参数空间和复杂的参数交互作用,手工调优这些参数既耗时又低效。因此,用户急需一种内存计算系统的参数自动调优方法。目前参数自动调优常用的方法是基于机器学习的方法(Machine Learning-based, ML-based),ML-based
图计算是大数据领域的主要处理模式之一,在生物信息网络、网页排名等领域有着广泛的应用。研究表明,图计算在传统中央处理器(Central Processing Unit,CPU)和图形处理器(Graphics Processing Unit,GPU)架构上存在着负载不均、不规则通信以及随机访存等突出问题,性能和能效水平受到较大影响。现场可编程门阵列(Field Programmable Gate Ar
随着互联网的飞速发展,数据的增长速度也在急剧增加,将所有的数据存储在本地磁盘已经无法满足数据的需求,越来越多的公司和个人用户选择将数据存放在云上。为了数据的正确使用,用户需要确保从云端获取的数据是完整的。因此,如何检验存储在云上数据的完整性就成为一个重要问题。传统的云存储中数据完整性验证框架通过引入第三方认证机构(Third Party Auditor, TPA)来完成验证工作。由于该框架完全依赖
传统计算机处理架构面临着严峻的“存储墙”挑战,随着现实世界中图数据规模的急剧膨胀,难以满足图计算高带宽、低延迟、大容量的现实需求。通过电阻式随机存取存储器(ResistiveRandomAccessMemory,简称ReRAM)的存内计算硬件将计算单元集成到内存单元中,为解决上述问题提供了可能。考虑到电阻式随机存取存储器中采用以矩阵结构为元粒度的组织方式,因此,在处理度数服从幂律分布的真实世界图数