基于自编码神经网络文本特征选择的研究

来源 :天津科技大学 | 被引量 : 13次 | 上传用户:LUZIBIN
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于自编码神经网络文本特征提取,主要目的是对当前文本挖掘的效率进行提升。由于现在网络的高速发展,大量的信息尤其是文本为主的信息在网络中大量传播,使得原有的文本挖掘技术缺陷暴露出来。对大量的文本数据,自编码神经网络可以对大量的文本特征进行降维,在不损害其准确率的情况下,提升速度。以此满足现代网络的高效率。本文选用自编码神经网络的方法是基于深度学习算法中的一种,他开创了机器学习研究中一个新的方向。深度学习的理念来自于人工神经网络的研究,它是具有多层感知器的结构。深度学习通过低层特征的组合来合成更抽象的高层特征,目的是用来发现数据的分布式特征。自编码神经网络的输出节点与输入节点相等以及隐藏层的节点数小于输入输出节点数的两个主要特点,实现了文本特征降维,降低了空间复杂度的计算量。通过这样的方法,实现了自编码神经网络对空间向量的高效计算。本文以50组内容相近的信息为例(每一组的信息内容不会超过30个汉字)进行编码,将汉字转变为字形点阵码,结合可视化技术,选择35组样本,作为自编码神经网络的输入信息。利用MATLAB工具中的神经网络模型进行实验,通过模型对输入的35组样本进行逐层的特征变换,使得原有的数据样本,从原来的特征空间变换到新的特征空间,并且建立文本特征库。选择剩下的15组利用上述方法进行文本特征提取,与特征库中的文本特征进行对比。实验表明自编码神经网络对文本进行特征提取,有良好的表现,能够很好地对文本进行分类,在减少了在时间和空间复杂度的计算量。
其他文献
<正> ——写在生物医学工程专辑之前生物医学工程是一门迅速发展的新型学科。它的研究发展将对人类社会的发展,产生了巨大的影响。人类能够征服自然界,掌握各种物质的结构(宏
目的分析2型糖尿病患者发生糖尿病视网膜病变(diabetic retinopathy,DR)的危险因素,建立DR的风险预测模型并验证,为其预防和筛查提供科学依据;针对晚期严重增殖期糖尿病视网
<正>今年是我国接入国际互联网20周年。20年来,我国互联网和信息化工作取得了显著发展成就,网络走入千家万户,网民数量世界第一。互联网发展不仅开启了社会生活的新时代、新
设G是n阶简单无向图,图G的能量为G的邻接矩阵所有特征根的绝对值之和.在图的两点间进行星图的移动称为图的移星操作[1];在图的两点间进行长为2的悬挂路的移动称为图的移长为2
太极拳作为中华民族宝贵的非物质文化遗产,是东方文化的重要组成部分。只有充分认识太极拳历史发展进程的文化价值,才能更深入了解和保护这项非物质文化遗产,进而加以创新和
伺服驱动器是舰载雷达伺服系统中重要的组成部分,伺服系统故障会对雷达整机性能造成一定影响。为此,设计了一种基于冗余备份的舰载雷达伺服驱动器的切换方法,该方法实现了两
论伤暑中暑中热辨误清·陆廷珍撰尝考仲景《金匮》,有中喝而无中暑,后贤诸书有中暑而无中。或以中暑即伤暑,或以中即中热,或以伤暑即伤寒。议论纷纷,终无实指。赖张洁古出而云:静而
期刊
目的 :探讨老年 2型糖尿病患者内分泌和代谢的特征。方法 :2型糖尿病患者 3 5例 ,健康对照组 3 7例 ,用放射免疫法测定血清雌二醇、睾酮、孕酮及胰岛素。结果 :与健康对照组
本报讯 近日从山西省民政厅获悉,截至2017年11月底,该省2017年新建600个农村老年人日间照料中心民生实事任务已全面完成。$$据了解,新建农村老年人日间照料中心是山西省委、
报纸
我国每年的自行车交通事故发生频繁,造成了大量的人员伤亡和财产损失,随着共享单车等绿色出行方式的推广,城市中自行车的保有量急剧上升,可以预见自行车交通事故的发生率有上