【摘 要】
:
随着卷积神经网络良好的效果以及AIoT的发展,其应用落地化的需求也越来越大。面对一些对算力、存储以及实时性要求比较高的嵌入式系统上,卷积神经网络模型巨大的参数量和计算量往往难以部署并得到应用。本文对多种典型轻量化模型结构以及部分模型压缩方法进行研究,分析并总结这些模型结构所依据的设计原则和创新点。在这些理论基础上,结合嵌入式设备特点,对深度可分离卷积网络结构提出优化方法,能够进一步加快嵌入式端模型
论文部分内容阅读
随着卷积神经网络良好的效果以及AIoT的发展,其应用落地化的需求也越来越大。面对一些对算力、存储以及实时性要求比较高的嵌入式系统上,卷积神经网络模型巨大的参数量和计算量往往难以部署并得到应用。本文对多种典型轻量化模型结构以及部分模型压缩方法进行研究,分析并总结这些模型结构所依据的设计原则和创新点。在这些理论基础上,结合嵌入式设备特点,对深度可分离卷积网络结构提出优化方法,能够进一步加快嵌入式端模型计算速度。首先,本文针对深度可分离卷积的内存访问开销和高参数量问题,提出优化方法。该方法在深度可分离卷积中使用分组卷积降低参数量,并提出针对分组卷积内存访问开销的优化方法。通过实验验证了在相同计算量(FLOPs)下,优化内存开销后的分组卷积的速度有较明显的提升。在此基础上又提出基于分组级别的剪枝方法对分组卷积的卷积核进行剪枝,大幅降低深度可分离卷积的参数量和计算量。通过实验分析并验证了优化后的深度可分离卷积在嵌入式设备端计算速度具有明显的提升。其次,针对分组卷积的特征图通道信息的边界问题,提出针对网络结构的优化方法。该优化方法针对基于优化后的深度可分离的网络提出交替卷积的方式,让分组间特征图的通道信息在不同层进行传递。结构优化后的模型在MNIST和CIFAR-10数据集上的进行准确率实验,通过实验分析并验证了使用本文提出的优化方法能够在较小模型精度损失的情况下较大程度地降低模型的参数量和计算量。然后,针对优化后的结构中使用split和concatenate操作所带来的内存搬运开销问题,提出嵌入式端计算优化方法。该优化方法通过使1×1卷积层的输入输出特征图在原地计算的方式,降低了优化后的网络结构在嵌入式端内存方面的操作开销,进一步提高在嵌入式设备上的运行速度。最后通过实验对比本文提出的优化方法优化后的模型在嵌入式设备上的实际加速效果。最后,针对本文提出的模型优化方法在实际工程应用中的可行性和有效性问题,本文通过实现一个关键词识别的嵌入式应用系统来进行工程验证。该系统使用深度可分离卷积网络进行语音关键词的识别,并使用本文提出的优化方法对其进行优化。通过对该软件进行需求分析设系统设计,完成语音关键词识别的嵌入式应用实例,验证了本文方法在工程方面的可行性。
其他文献
PageRank算法是一种计算图网络数据中节点重要性的算法,通过入链节点的重要性和入链节点的数目来计算每个节点重要性,可以广泛应用于搜索引擎推荐、社交网络人群重要性排序以及文献作者排序等实际问题中。但在实际问题中,由于图网络结构的拓扑结构,同一节点对不同节点的重要性贡献是不同的,这时使用原始的PageRank算法计算网络中节点重要性不够准确,而基于无向结构的PageRank算法虽然可以改变计算过程
随着互联网行业的高速发展和物质生活的极大丰富,国内外涌现出大量的互联网电商平台。持续膨胀的数据量以及日益复杂的业务场景,对支撑电商平台的基础架构的性能和稳定性提出了重大考验。在保证系统性能和稳定的同时科学地控制运营成本是管理者关注的重要方面。本文通过对基于微服务及云原生架构的互联网电商平台的业务特点和Kubernetes集群的负载指标进行分析,指出了存在的资源浪费和服务抖动问题:负载指标变化规律与
聋哑残疾的患病人数是中国五大残疾人数之首。据统计,截止2020年中国有2780多万的聋哑人。因聋哑人群体语言听觉能力的缺失导致与他人沟通困难,给工作生活带来了诸多不便,产生许多社会问题。针对聋哑人沟通的难题,研究人员做了大量的基于手语、文字等方面的研究,并在手语和文字的翻译效率、准确性等方面有了非常大的进展。然而,手语翻译方案存在使用广泛性不够,标准繁多,价格昂贵等问题。实时文字翻译方案交互效率低
随着嵌入式系统结构和交互的日益复杂以及软件在嵌入式系统应用比重的增加,如何保障复杂嵌入式系统的高安全性和高可靠性逐渐成为了现今的挑战。目前,传统系统安全分析方法如故障模式及影响分析(FMEA)、故障树分析(FTA)、可靠性框图(RBD),已广泛运用于学术界和工业界。但是面对系统的高度集成化、复杂化、软件密集化的发展趋势,传统的系统安全分析过程往往难以应对。在常规的安全分析过程中,安全工程师通常使用
近年来,随着教育和信息化技术的融合,在线教育呈现蓬勃发展趋势,在线试题数量大规模激增。如何高效组织和管理这些试题资源,有效实现试题推荐、快速组卷、自适应测试等智能化过程,逐渐成为该领域的研究重点。试题知识点的自动标注是管理题库数据、提高教育自动化和智能化的基础所在,其本质是文本的多标签分类。目前,针对数学试题的知识点自动标注研究还很少,相较于普通文本,数学文本因为包含符号、公式等特殊元素,具有更加
近年来,边缘网络流量的空前增长,以及新型应用对服务体验质量(Qo E)的更高要求,对通信网络的数据通信质量(如带宽、时延、吞吐量)提出了新的标准和挑战。缓存通过将一部分数据存储在边缘网络节点,成为一种缓解这些问题的有效方法。为此,各种各样的缓存方案被提出,但是,这些方案要么因为缺乏自我学习能力和自我决策能力而不够智能,要么缓存命中率不够高而不够有效。基于这些观察,本文提出了一种新的基于深度强化学习
近年来,抽象式文本摘要模型比抽取式文本摘要模型更受青睐,因为其可以生成原始文本中不存在的单词,其摘要描述更加灵活和自然。基于序列到序列的抽象式文本摘要模型通过对原始文本和参考摘要之间的关系进行建模,从训练数据中学习摘要生成的模式。虽然基于序列到序列模型的抽象式文本摘要有着能够自由生成文本的优势,但是由于训练数据和现有模型均存在较高的不确定性,目前现有方法的摘要生成效果仍然不佳。其一是由于序列到序列
基于深度学习的裂纹识别是计算机视觉中一个重要的任务,在工业界有着广泛的应用,例如对于桥梁,建筑,大型交通工具等环境下的裂纹进行识别。裂纹普遍存在于各类环境中,但是同一类环境下的裂纹一般数量较少,并且裂纹的形式多种多样。除此之外,裂纹识别主要被应用于机器人等产品上。本文主要解决边缘设备裂纹识别任务算力不足问题,构建了FRCRU算法解决数据不均衡问题,设计了通用大模型作为技术储备。本文以裂纹识别存在的
本文研究三维量子磁流体-液晶耦合方程组Cauchy问题经典解的整体存在性和衰减.对于这个问题,我们考虑初值在常平衡态的小扰动条件下(H3空间中).一方面,运用能量方法得到局部解的一致有界估计,进而得到整体解存在性;另一方面,当初值的H-s(0≤s<3/2)范数或者B2,∞-s(0<s≤3/2)范数有限时,通过负考虑在负Sobolev空间和负Besov空间中的能量估计,利用正则插值技巧得到整体解的衰
随着分布式系统的快速发展,复杂应用不断水平扩展,日志被分散在很多不同的机器设备上,同时各类应用程序在运行中产生的日志呈爆炸式增长[1],给日志的收集、存储和分析都带来了新的挑战。目前市场上常见的日志收集方案,不能同时解决日志可分析性差、性能差、不可靠、不好扩展等问题,其中性能方面暂未取得突破性进展,无法满足业务快速扩张的需求。因此本文核心要解决性能问题,同时保证可靠性、可分析性和可扩展性,为特定场