基于胶囊网络的图像识别算法研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:genggeng07
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
2018年,中国电子学会把胶囊网络列为人工智能的十大成长性技术之一。胶囊网络是一种全新的深度学习方法,由“深度学习之父”—Geoffrey Hinton于2017年10月提出。胶囊网络,这种新型神经网络结构的提出在机器学习领域引起了广泛的关注,未来有可能会对人工智能技术有革命性意义。胶囊网络中的胶囊由一组神经元组成,即把一组神经元向量化,用向量的长度表示一个实体或实体的一部分存在的概率,用向量的方向代表他们的各种实例化参数,比如位置、方向、大小、形变、速率、颜色等。向量能更好地表示出图像细节以及实体的空间相对关系,而这正是卷积神经网络所缺少的。不过由于这种新型网络在不同任务上的效果有待验证,目前胶囊网络的发展仍处于初级阶段。所以本文围绕胶囊网络,针对它的结构、识别速度、网络参数和图像识别等应用展开探讨。此外还借鉴了卷积神经网络的一些优化方法,综合改进了胶囊网络现存的一些不足,使其更为方便地运用在相关领域。具体研究有以下几个方面:1)胶囊网络的创新之一在于提出了矢量化的胶囊,它比传统神经网络的标量更能表达物体的姿态信息,能学习到更鲁棒的表征。本文通过可视化实验研究了胶囊内部的向量是如何影响实体的姿态的,证明了它是一个有发展潜力的方向。2)纵然胶囊网络在MNIST数据集已经达到了当前识别的最佳精度,但是在时尚服装图像数据集上表现不佳。本文针对胶囊网络的这一不足进行改进,讨论了它对较为复杂数据识别不准的原因,并且通过对特征提取和训练方法的改进,具体是借鉴Inception模块的思想并在重构层中引入批标准化。本文在服装类数据集测试得到了比原始模型更好的识别精度。另外为证明我们实验的有效性,我们亦在CIFAR10数据集进行验证,结果表明在参数量少于原始网络的情况下,其优于MNIST基线网络,而且比原始胶囊模型的准确率提高了大约10%。3)由于胶囊网络在彩色图像上的识别性能并不理想,并且大量的参数使其难以在实践中应用。基于这些观察,本文设计了识别效果更精确的胶囊网络,我们将其称为PdCaps。该网络由三个子网络组成。第一个是特征提取网络,本文设计了两个不同卷积核大小的卷积层。第二个是并行卷积与动态路由网络,我们将原始路由机制进行改进,提出了一种效率更高的网络。此外,并行卷积由两个不同尺寸卷积核执行以获得PrimaryCaps层。第三个是解码网络,解码层是为了起到正则化作用,避免胶囊网络过拟合。本文添加了转置卷积层,以减少该部分的参数,而不会影响模型的整体性能。然后,将PdCaps用于CIFAR10数据集的识别,不仅将准确率提高了12%以上,而且模型中的参数数量亦少于原始模型,识别速度得到提升。本文为设计更接近实际应用的胶囊网络提供了新的方向。本文对胶囊网络的网络模型、训练算法及其在图像识别的应用等方面进行了研究及改进,为胶囊网络在实际应用场景中的运用奠定了基础,同时也为胶囊网络以后的研究与发展提供了参考方向。
其他文献
目前,随着我国工业的快速发展,自动化生产线的运用越来越广泛,特别国家提出的《中国制造2025》指出依托优势企业,紧扣关键工序智能化、关键岗位机器人替代、生产过程智能优化
纳米级器件忆阻器自2008年由惠普实验室研制出以来,已经被广泛的应用于信号处理、逻辑运算、人工神经网络等众多领域。因为其信息处理和存储的特性与生物的神经突触十分类似,
典型定子转子类机械结构在生活中有很多的应用,例如船用螺旋桨、风机叶片、液力缓速器、电脑硬盘等等;所以研究定子转子中液体流动问题有很大的现实意义。在实际的应用中,有
自20世纪90年代以来,多模态话语分析在国内外发展如火如荼,其中最为杰出的代表是Kress和Van Leeuwen提出的觉语法理论,从再现意义、互动意义和构图意义的角度讨论多模态图像规则和如何表达意义,为多模态话语分析提供了理论基础和分析方法。几乎与此同时,多模态论辩研究兴起,研究者们认为除了文字还可以运用图像和其他视觉成分来实现论辩修辞效果。据此,学者们开始用“论辩模态”或“多模态论辩”来解释论
随着无线网络的快速发展和覆盖规模的不断扩大,无线网络应用日益多样化,例如网页搜索、IPTV、视频电话、在线游戏、网络购物和直播等,导致用户对无线网络带宽资源的需求越来
煤炭是我国最主要的一次能源,煤矿生产安全是煤炭行业健康发展的保障。煤矿井下作业点多、线长、面广,工作环境复杂,人员、设备管理十分困难,极易出现安全事故。目前煤矿装备的人员定位系统,多采用区间定位法,定位精度低,已经不能满足煤矿对人员、设备精确管理和抢险救灾的需求,因此研制新一代煤矿人员与设备精确定位系统成为亟待解决的问题。超宽带(Ultra Wide Band,UWB)技术凭借其独特的无载波通信,
特定动态目标识别与跟踪在视频监视等方面具有重要的应用,近年机器学习技术以及卷积神经网路的发展极大地推动了特征提取以及图像的模式识别技术发展。本课题主要基于卷积神
我国经济面临高速发展向高质量发展的转型期,实现经济可持续发展关键是要发展创新。创新要素集聚是区域创新能力提高的关键因素,有利于增强国家自主创新能力和国际竞争。呼包
近年来,数字化信息爆炸式增长,如何高效快速采集、处理、分析有效信息成为社会关注热点。人工神经网络凭借强大的数据处理能力成为众多学者研究的对象。与此同时,各种机器学
中国同英语国家交流日益密切,随着生成语法的发展,关于空论元已有广泛研究。包含空主语和空宾语,空论元指的是那些没有语音表现形式但有语法作用和语义内容的动词论元。本研究旨在研究空论元的习失,对不同类型空论元进行对比分析,并考察影响空论元习失的一些因素。在普遍语法的原则与参数理论框架下,本研究通过采用语法判断测试和写作任务,考察和分析了以英语为外语的154名中国大学生的空主语和空宾语习失情况。结果发现和