基于自动编码器的特征选择算法研究与实现

来源 :湖南大学 | 被引量 : 0次 | 上传用户:slylzz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度学习是人工智能领域的一个重要的研究方向。深度学习源于生物神经网络学,通过组合低层特征形成更加抽象的高层特征,以发现数据的分布式特征表示。深度学习领域常用的栈自动编码模型和稀疏自动编码模型能够利用数据学习特征,获得数据不同层次的特征表达,并提高识别精度。然而,自动编码模型学习到的不相关特征在神经网络训练过程中会消耗大量的计算资源和存储资源。为了减少神经网络训练的时间,可以对自动编码所学习到的特征集合进行特征选择。特征选择技术不仅可以帮助理解自动编码的训练模型还能提高模型的泛化能力。因此,本文将特征选择技术应用于自动编码模型所学习到的特征集合来获得更好的分类性能。本文首先讲述了深度学习的工作流程和涉及到的相关模型,再论述了特征提取和特征选择过程中所使用的相关技术,最后提出了基于交叉熵的栈自动编码特征选择方法和基于平方误差损失的稀疏自动编码特征选择方法,主要研究工作如下。为了解决机器学习中特征工程面临的问题,获取目标深层本质特征信息,提高识别精度,本文提出了一种基于交叉熵的栈自动编码特征选择算法(CESABF)。CESABF算法采用了机器学习中的有监督学习和无监督学习训练方法。先建立一个堆叠了二个自动编码器的三层栈自动编码模型,采用无监督的方法训练好三层栈自动编码模型。然后把三层栈自动编码模型的输出当作一个softmax分类器的输入,采用有监督训练方法来调节模型的参数。之后以交叉熵为标准计算上述模型中每一个特征对数据集的影响,删除增加数据集交叉熵的特征。为了使自动编码器学习到数据的稀疏特征,减少特征集的冗余度,提高网络模型的泛化能力,本文提出了一种基于平方差损失的稀疏自动编码特征选择算法(SESABF)。先创建一个经典的自动编码器,再给自动编码器加入稀疏性限制。预训练好稀疏自动编码器后,将编码好的数据集送入一个分类器,把稀疏自动编码器的编码层当作一个神经网络,采用梯度下降的方法调节神经网络参数。然后用平方误差损失作为选择特征的评价标准,计算删除每个特征对数据集的平方误差损失的影响,从而保留降低数据集平方误差损失的特征。
其他文献
伪随机序列在信息安全系统中扮演着十分重要的角色,在扩频通信、码分多址、雷达导航、软件测试、流密码等领域都有着广泛的应用.伪随机序列在流密码体制中主要用于密钥流的生成.随着研究的不断深入,根据不同密钥流生成器的设计方式和针对流密码的攻击方法,学者们先后提出了多种度量序列安全性的重要指标,线性复杂度和2-adic复杂度就是其中两个重要指标.由Berlekamp-Messey算法(BMA)和有理逼近算法
改革开放40多年来,我国出口贸易迅猛发展,出口规模已居世界第一,但大部分出口企业缺乏核心技术,出口产品附加值不高,国际竞争力不强,从而导致我国出口企业在出口市场生存率偏低,面对竞争激烈的国际市场和外部冲击,融资约束问题成为影响我国企业发展和出口的一个重要因素。已有研究针对我国出口生存率的研究,基于融资约束视角的分析不多,尤其是同时考虑企业内外源融资约束,探讨融资约束对于出口生产率的影响机制和渠道的
资金是企业经济活动的持续推动力。企业能否获得稳定的资金来源、及时足额筹集到生产要素组合所需的资金,对于经营和发展都是至关重要的。然而对于中国企业来说,融资约束已成
随着半导体技术的发展,芯片越来越受到重视,尤其是在国内芯片发展还不够成熟的情况下。如今已经进入网络社会时代,网络在生活中扮演着一个特别重要的角色,人们的生活几乎离不开网络。而以太网从70年代产生到现在,经过了40多年的发展,速率已经从最开始的10M逐渐发展到万兆,技术上也在不断成熟,并形成了统一的标准,无疑是网络中重要成分之一。本文基于12nm的CMOS工艺,设计了一种以太网接口发送和接收数据一体
随着第五代移动通信(5th Generation Mobile Communication,5G)的发展,大规模MIMO系统(Massive Multiple-Input and Multiple-Output,M-MIMO)作为5G关键技术之一,通过增加空间的自由度,极大地提高了无线通信系统容量,因而,成为目前的研究热点。但是,在大规模MIMO系统中,由于用户数和天线数不断地增加,用户间的相关性
进入后续改革时期,人民的生活在不断改善的同时,发展成果非广泛性的共享问题突显,阶层性的收入分配差距拉大,社会福利分配不平等程度逐渐扩大,发展不均衡现象严重。共享理念能够有效缩短贫富差距,缓解区域、城乡经济发展不均衡的局势,减少分配不公现象的发生,促进人和自然界和谐共处,进而形成稳定的社会环境。本文的主要研究工作如下:(1)共享发展成果的理论基础。以习近平总书记在十八届五中全会中所指出的“共享是中国
环烷烃是一类重要的石油化工产品,通过催化氧化可以将其转化为多种化工产品,如环烷醇、环烷酮、环烷基过氧化氢和脂肪族二酸,应用均十分广泛。其中,环烷醇和环烷酮是制备聚酰
吕斯百先生早年受教于徐悲鸿先生,他被认为是近代以来最重要的徐老艺术的继承者。解放前后,吕斯百曾经先后在南京和兰州的三所大学任教,并担任系主任职务,对我国的高等美术教育教学工作产生了巨大的影响。论文通过对吕斯百生平经历的回顾研究,以总结吕斯百美术教育思想为基础,系统性的归纳了吕斯百先生的美术教育思想。首先,通过资料收集,详细的重新回顾了吕斯百的人生经历,将之划分为早年经历、留学生涯和执教生涯三大部分
信息隐藏是一种秘密通信技术,它是将秘密信息隐藏到看上去普通的载体信息中进行传送,以避免窃听者的怀疑。因为载体本身具有一定的冗余性,所以传统的信息隐藏算法都是通过修改载体来嵌入秘密信息。虽然这些方法都实现了秘密信息的隐藏,但是在修改载体的过程中会将修改痕迹留在含密载体上,因此隐藏算法不能彻底的抵抗各种隐写分析算法的检测。为了能彻底地抵抗各种隐写分析技术的检测,提出了“无载体信息隐藏”这样一个新的概念
由于能源危机和环境问题,电解水作为一种清洁高效的制氢技术而受到越来越多的关注。电解水的整体效率取决于阳极的析氧反应(OER)。目前,具有良好的OER催化性能的贵金属Ru和Ir