【摘 要】
:
随着信息技术的发展,数字图像深入到我们生活中的方方面面。深度学习是近年来在人工智能领域引起关注的研究主题。作为深度学习的经典模型,卷积神经网络(CNN)在图像分类,对象检测和自然语言处理方面取得了一系列重要的突破。卷积神经网络模型具有计算复杂度高和参数量大的特点,正是这种复杂的多层网络结构为模型提供了强大的特征表示能力。智能设备的普及增加了将卷积神经网络移植到嵌入式设备的需求,但是其巨大的参数冗余
【基金项目】
:
国家自然科学基金计划项目(61876037);
论文部分内容阅读
随着信息技术的发展,数字图像深入到我们生活中的方方面面。深度学习是近年来在人工智能领域引起关注的研究主题。作为深度学习的经典模型,卷积神经网络(CNN)在图像分类,对象检测和自然语言处理方面取得了一系列重要的突破。卷积神经网络模型具有计算复杂度高和参数量大的特点,正是这种复杂的多层网络结构为模型提供了强大的特征表示能力。智能设备的普及增加了将卷积神经网络移植到嵌入式设备的需求,但是其巨大的参数冗余和计算成本限制了它们在嵌入式设备(尤其是移动设备)中的部署。轻量化卷积神经网络的需求不断增加,于是神经网络压缩算法应运而生。本文通过对现有的卷积神经网络压缩算法的研究,聚焦于参数量化方法中的二值化方法,提出了两种在保持模型效果的前提下能够有效减少模型参数存储空间的二值卷积神经网络结构。本文主要内容如下:(1)本文设计了一种名为Modulated Binary Clique Net(MBClique Net)的新型紧凑型便携式深度学习网络,旨在提高基于二值化滤波器的卷积神经网络的可移植性,同时实现与Res Net之类的高精度卷积神经网络相当的性能。MBClique Net由调制卷积模块构成,该模块含有一个特殊的调制滤波器和一个二值卷积滤波器,本文设计了一种特殊的调制操作,该操作利用调制滤波器和二值卷积滤波器生成用于做卷积运算的重建卷积核,以弥补二值化卷积滤波器带来的精度损失。与全精度模型相比,MBClique Net可以将卷积滤波器所需的存储空间减少至少32倍,并且比其他最新的二值化模型具有更好的性能。更重要的是,本文的模型在所使用的数据集上与高精度模型(如Res Net)相比甚至更好。(2)四元数卷积网络在特征提取能力上比普通卷积网络更有优势,针对四元数卷积网络相较于普通卷积网络参数量多一倍的问题,本文提出了基于局部二值神经网络的四元数局部二值卷积神经网络(LBQCNN)。本文提出了将四元数卷积操作替换两个四元数卷积层,其中第一个层使用无需通过学习更新参数的二值滤波器,第二个层使用卷积核大小为1×1的四元数卷积层,通过图像分类实验证明了网络的有效性,同时减少网络中需要学习的参数量至少6倍,减少了模型存储空间至少4倍。另外本文利用所提出的四元数局部二值卷积神经网络在人脸识别任务上进行了实验,在LFW数据上取得了97.93%的准确率,超过了原始的局部二值神经网络。
其他文献
在标准偏标记学习框架下,每个对象由单个特征向量进行刻画,同时与多个候选标记相关联,其中仅有一个未知的真实标记。另一方面,在真实世界问题中对象的性质往往更为复杂,每个对象拥有多源的特征表示并且未知的真实标记也并非唯一。一般而言,有效的特征表示能显著提升学习系统的泛化能力,而偏标记特征表示任务由于标记的真实信息未知而具有较高挑战性。本文针对偏标记场景下的特征表示及融合展开研究,主要包括以下两方面工作:
医学图像配准是医学图像处理研究领域的一个重要任务和技术难点,对于图像融合、检测肿瘤生长等临床工作有重要意义。图像配准旨在寻找将一幅图像映射到另一幅图像的空间变换。传统的配准方法迭代优化每一对图像的目标函数求解空间变换,存在配准时间长、计算量大的问题。近年来,随着深度学习在医学图像研究领域的广泛应用,基于深度学习的图像配准成为极具前景的研究方向。基于深度学习的有监督配准方法虽然在配准速度与精度方面都
随着网络中数据信息的快速增长,知识库的规模也与日俱增。由于知识库中数据量的庞大规模以及复杂结构的限制,普通用户很难快速有效地获取需要的信息。因此,基于知识库的问答,运用自然语言处理技术,对于用户提出的自然语言问题,自动利用知识库存储的三元组信息(即知识)进行解答,显得尤为迫切和重要。目前,基于知识库的问答研究引起了国内外学者的广泛关注。根据回答问题所需要的三元组的数量可以将知识库问答分为两类:单关
多模态知识表示学习旨在从多模态数据中学习到关于其中数据、信息或知识的低维稠密向量形式的特征表示,作为近年来人工智能研究的热点问题之一,在多模态语义检索、视觉问答(VQA)、多模态情感分析等智能场景中具有重要应用价值。虽然多模态数据能为许多任务提供比单模态数据更多和更有用的特征信息,但如何从多模态数据获得有效的表示学习结果一直是多模态知识表示学习研究的核心问题。本文首先提出了一种基于门控层级融合的多
知识图谱是人类知识的一种显式表示方式,作为近年来人工智能研究的热点领域之一,已被广泛应用于语义搜索、人机互动、辅助决策等智能应用场景。然而,在各种知识图谱驱动的应用中,往往需要借助知识图谱嵌入技术将知识图谱中的元素表示为低维稠密的向量形式,弥补显示知识表示的不足,以满足大量推理、分析和预测的需要。虽然知识图谱嵌入已有很多研究工作,但仍存在知识表示不准确和语义不够丰富的明显不足:(1)基于翻译思想或
图像描述顾名思义,即给定一张图片,算法自动生成一段描述图像内容的文本。该任务对人来说很容易,但对于机器却非常有挑战性。这需要同时用到计算机视觉技术和自然语言处理技术,来实现从图像内容理解到文本生成的转化过程。图像描述应用潜力巨大、在很多方面都很有应用价值,适用于人机交互、图片索引、智能监控、视频标注、视觉辅助等领域。近年来,Encoder-Decoder框架在基于神经网络的图像描述任务中吸引了越来
单目深度预测是计算机视觉中备受关注的研究课题,在自动驾驶、VR游戏制作、影视制作等领域具有广泛的应用价值。然而,目前该领域仍然存在较多为解决的问题,例如使用雷达激光采集深度数据的过程耗费巨大且受天气、光照等客观因素影响大;基于稀疏深度图恢复的深度信息的方法存在边缘深度不连续的问题。本文利用立体图像对进行训练,旨在提高场景深度预测网络的预测能力,对深度网络结构、双目立体匹配、视差图优化等方法进行了研
继美国、欧盟、日本之后,中国于2016年提出中国脑计划,神经性疾病的早期诊断是中国脑计划的一个重要研究方向。癫痫是由脑神经的异常放电引起的神经性疾病,其发作频率高且严重影响患者生活质量与生命安全。癫痫患者中有30%为耐药性癫痫,其治愈手段是采用外科手术来切除癫痫病灶,决定手术成功与否的关键是如何在术前评估阶段有效地识别癫痫病灶与正常功能区。在众多术前评估手段中,颅内脑电图(i EEG,intrac
可定制交互式视频是指在视频编辑和制作的过程中,可以根据不同的受众定制不同内容的交互式视频。目前,可定制交互式视频凭借其可交互、信息量大等优点拥有很大的市场需求(商品导购等)。然而,在可定制交互式视频的制作过程中,当前还面临两个主要问题:第一,对于视频目标检测,视频中经常出现如目标运动模糊、视频散焦、目标姿态奇异以及遮挡等帧图像恶化现象,传统视频目标检测算法难以在此类视频目标检测任务中达到较高的检测
基因作为遗传的基本单位,控制着生物的基本性状,对于个体识别和血缘鉴定都具有决定性的作用。通过基因预测人体的面部形态在刑侦以及法医领域一直是研究的热点,目前比较流行的DNA分子画像技术主要通过全基因组关联分析(Genome-wide Association Study,GWAS)结合单变量差异分析技术或者基于三维稠密数据点研究基因与面部形态之间的关联性,然后通过机器学习算法建立对应的预测模型,这些方