基于卷积神经网络的文献分析

来源 :长春工业大学 | 被引量 : 0次 | 上传用户:liujing6633
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在互联网上的文本信息量飞速增长的同时,人们对互联网上的论文文献进行查阅和整理所需要耗费的时间也越来越多。在这种背景下,利用文本聚类技术来对海量的文献进行分类整理,具有非常重要的应用前景与研究意义。文本聚类是文本挖掘的一项重要技术,能够广泛应用于文本挖掘与信息检索等方面,在大规模文本集的组织与浏览、文本集层级归类的自动生成方面都具有重要的应用价值。文本聚类的首要问题是如何将文本数据以数学形式表示出来,同时传统的文本聚类算法忽略了文本中单词之间的语义相关性,以及传统聚类算法存在聚类结果不稳定等问题。本文主要是针对以上问题对文本聚类进行研究。本文使用搜狗中文语料库、复旦大学中文语料库和哈尔滨工业大学中文语料库中的中文文本数据作为实验的数据集,通过利用word2vec工具对文本数据做词向量转化、利用卷积神经网络对文本数据进行特征提取以及利用基于K-means改进的KSDM聚类算法对文本数据进行聚类,达到对论文文献聚类的目的。本文主要工作如下:1、本文首先探讨了文本聚类算法的研究意义及国内外研究现状;分析了当前传统的文本聚类算法存在的不足;2、研究了常用的几种文本聚类算法,卷积神经网络的基本原理,以及词向量的转变和word2vec工具的基本原理。3、设计了基于卷积神经网络的文本特征提取方法。搭建了卷积神经网络模型,选取了卷积神经网络的各项参数。通过实验验证本文设计的基于卷积神经网络的文本特征提取方法的有效性。4、设计了基于k-means改进的KSDM聚类算法。在传统的K-means算法的基础上,针对其自身的不足提出了一种新的孤立点检测算法和一种新的聚类中心选取算法。实验结果证明了KSDM算法的有效性。5、在理论研究的基础上,将word2vec工具、卷积神经网络和KSDM聚类算法相结合,提出了基于卷积神经网络的文献分析框架。首先需要对文本数据进行分词、去除停用词、以及词向量转化等预处理过程,然后将得到词向量存储到向量矩阵中并输入到预先训练的卷积神经网络中来提取文本特征,最后,将得到的特征输入到KSDM聚类算法中进行聚类,已实现对测试文献聚类。实验结果验证,本文算法有效的提高了现有的文本聚类算法的准确度,并且具有较高的扩展性和灵活性。
其他文献
草莓育苗上,综合使用硼、钙、酵素菌剂,无论是子苗数量、子苗粗度、子苗高度,都明显高于对照处理。产生相同子苗数量的时间,也是最短的,不但能够快速生产苗木,缩短育苗周期,
针对电务人员的技能培训,提出一种计算机联锁电务培训系统的设计方案。在此基础上,研制了系统的硬件,设计了系统的上位机软件和联锁机软件,并提出了具体的培训方案。实用结果
基于弹性地基梁建立了隧道衬砌的控制微分方程,根据圣维南原理推出裂缝间距相应中心角应满足的卓越方程,由此求出了隧道衬砌在荷载作用下产生的裂缝间距,进而确定相同裂缝间距和不同裂缝间距情况下的裂缝宽度。
辽宁职业教育在老工业基地全面振兴进程中,针对学校布局分散、规模小、师资水平低、办学条件差的问题,强化政府责任,整合存量资源,加强基础建设,创新产学合作培养人才模式,育
当现代职业教育制度起源于古代的学徒制,欧洲古代的学徒制教育是职业教育史上的一个重要阶段。古希腊、罗马时期就出现了早期的形式化学徒制,它具有明显的阶级性、民间性和行
YDX-3L型全液压动力头式岩心钻机是由北京天和众邦勘探技术有限公司与国土资源部勘探技术研究所联合研制开发,专门为固体矿藏地表取芯作业设计,适用于金刚石绳索取芯等多种高