四元数自编码机算法及其应用研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:e3e45r
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类进入互联网信息爆炸时代,所接触的信息种类也越来越多。比如从最开始简单的文本信息,发展到随后的音频信号,再到现如今含有丰富内容的图像。人类获得信息的途径越来越多,获得的内容也越来丰富。在所有信息传播的途径中,图像信息由于其丰富的内容,以及生动的表达能力已成为当今互联网信息传播的主流。然而随着图像信息在互联网中的爆炸式传播,人们已经不能有效的从中寻找出自己想要的数据。尤其是当图像数据众多,且图像信息存在大量冗余的时候,人类很难从大量图像数据中迅速地识别出自己所感兴趣的内容。更严重的是,由于每个人在认识事物方面存在差异性,图像的识别往往受到个体差异性的影响,并且识别精度也不太稳定。因此如何依靠计算机对图像进行有效的分析和识别成为解决这类问题的关键。近年来四元数在彩色图像识别中的应用引起了国内外学者的广泛关注。在本文中我们会介绍四元数的代数理论然后以此为基础阐述四元数主成分分析在彩色图像分类中的应用。我们通过Georgia Tech Face彩色人脸数据对传统的主成分分析,线性判别分析和四元数主成分分析进行对比并且给出了详尽的实验结果。自编码技术是近些年发展较快、势头较猛的深度学习的一个分支,他并没有像四元数主成分分析、主成分分析和线性判别分析那样需要人工指定如何去提取特征,而是采用了自学习的办法,从给定的图像数据中学习出这组图像的本质特征,然后再将这些特征应用在图像识别领域。主成分分析网络就是一种新型的自编码机。该网络主要分为三部分:卷积层、滤波器算法和最后的特征图像编码。我们在CURet彩色纹理数据库上研究了主成分分析网络对于各个彩色空间中的彩色图像的分类表现,指出了主成分分析网络的最优彩色空间并且分析了主成分分析网络在彩色空间上的彩色滤波器。由于主成分分析网络一直应用在灰度图像识别领域,因此如何对主成分分析网络进行改进,使其能够更好的对彩色图像进行特征提取,是本文的主要研究内容。在本文中,我们基于四元数主成分分析理论,对传统的主成分分析网络进行了改进,使得改进后的四元数主成分分析网络相比较原来的主成分分析网络能够对彩色图像能够进行更有效的特征提取,从而能够对彩色图像进行更精确的分类。四元数主成分分析网络采用四元数彩色RGB图像作为网络的原始输入。在滤波器的使用上我们采用了四元数主成分分析。卷积层我们使用四元数域乘法实现二维卷积操作。在最后的特征编码层,四元数特征图被进行二值化后,用加权的方式得到彩色图像最终所对应的特征向量,然后使用大规模支撑向量机进行分类。在文中我们使用Caltech101, UC Merced Land Use, Georgia Tech Face彩色图像数据库测试四元数主成分分析网络的识别性能,并与原始的主成分分析网络进行了详尽的对比。实验结果表明四元数主成分分析网络在彩色图像识别方面优于传统的主成分分析网络,当彩色图像含有较多的旋转图像信息的时候,这种优异性更加得以体现。由于我们提出的四元数主成分分析网络的工作对象是处理普通的平面彩色图像,不具有处理日常多维视觉信息的能力。在本文中,我们对传统的张量降维算法(多线性主成分分析和多线性判别分析)进行了卷积网络结构化的扩展,得到多线性主成分分析网络和多线性判别分析网络。我们提出的两种网络能够对张量数据进行更有效的特征提取,我们随后在UCF11和UCF Youtube视频数据上对这两种新提出的算法进行了详细的测试。实验结果表明,应用结构化的张量特征提取算法提取出来的特征远远优于传统的张量特征提取算法。新算法提取出来的特征能够使用分类器进行有效的分类,并获得非常高的分类精度。
其他文献
频繁项集挖掘是数据挖掘领域的重要研究方向之一,但是传统的频繁项集挖掘算法只考虑项集的支持度,这使得在挖掘过程中丢失一些用户感兴趣的项集。此外,由于数据流具有实时性、无
随着信息技术的发展,软件规模不断扩大,而且越来越复杂,如何保证和提高软件质量成为软件界最为关心的问题之一。软件测试作为保证软件质量的关键技术,能够有效地发现软件中的故障
心音信号是人体最重要的声信号之一,它包含着心脏各部分的生理和病理信息,是心脏及心血管系统机械运动状况的反映。在心血管疾病尚未发展到足以产生临床及病理改变时,心音中出现
供应链管理是当前的一个研究的热点,也是企业界越来越青睐的管理方式,而库存管理是供应链管理中的一个重要组成部分,有效的企业库存管理能够创造巨大的经济价值。随着信息化技术
当前医药行业,医药管理系统的开发基本上还是按照企业的需求定做,分析、设计、开发每个环节都要重头做起,致使系统的开发效率低下、周期长、成本高。本文所研究的主要内容就是为
电信领域计费系统是电信运营商获取商业利润时的收费依据,计费系统数据属于商业数据,要求非常高的可靠性。论文以湖南铁通计费网络的系统集成为背景,对于这一高可靠系统,从组
G(o|¨)del语言是继Prolog语言之后出现的新型说明性通用逻辑程序设计语言。它建立在多态多类的一阶逻辑基础之上,摒弃了Prolog语言中的非逻辑成分,集成了许多语言的有效成分
图像分割,是指将数字图像划分为若干有实际意义的区域的过程,是计算机视觉方向的基础问题之一。近年来,随着多媒体、互联网技术的发展,视频作为信息传递的媒介在社会生活中发
在雾、雨、雪、沙尘等低能见度天气条件下,道路环境系统的可视性变差,驾驶员通过视觉获得道路环境信息不足,极易发生车辆碰撞、冲出行车道等恶性交通事故,导致车毁人亡。因此,如何
传统信息检索方式下,由于信息缺少统一的语义描述,用户很难找到与需求相关的信息。如何使信息具有应用程序可以理解的语义,实现信息资源的语义检索,这些问题是信息检索领域所面临