基于卷积神经网络的新闻文本分类研究

来源 :北京交通大学 | 被引量 : 6次 | 上传用户:yuyuspecialshow
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和信息技术的快速发展,网络新媒体已经成为信息交互的有效平台。其中非结构化的新闻文本作为信息的一种重要承载形式呈爆炸式增长。如何高效准确地对海量新闻文本进行分类,提取所需信息是当前最热门的研究课题之一。并且由于其内容简短,表达方式多样化和语法结构不规范,增加了分类的难度。所以目前迫切需要一种有效的文本分类算法对文本语义进行更好地提取,从海量的新闻文本中挖掘出有价值的信息。自深度学习思想被提出以来,已经在图像识别、机器翻译和语音识别等领域中取得了出色的表现。和传统机器学习算法相比,深度学习模型通过多层非线性空间的变换,能够刻画出数据的本质特征,为提高新闻文本分类模型的准确性提供了良好的基础。深度学习模型中的卷积神经网络(Convolutional Neural Network,CNN)已成为一种主流的文本分类模型。本文提出了一种基于卷积神经网络的新闻文本分类框架,对文本分类中的特征表示、特征提取和分类器构造等关键环节进行了不同程度地改进。本文的主要工作如下:(1)文本的特征表示方法对最终分类结果有很大的影响。基于分布式表示的word2vec词向量将词映射成d维空间中连续稠密的实数向量,通过计算向量间的余弦距离可以来衡量词语间语义相关性。本文将卷积神经网络模型的输入层使用词向量替换传统的one-hot向量,通过CBOW模型训练词向量,对词进行向量化表示。针对词向量只能获得词的上下文的语义而缺乏对文本整体语义信息的弱点,引入LDA主题模型,将词向量和主题向量进行拼接得到一种更有效的特征表示方式,更好地提取文档的浅层语义信息。(2)在从文本的词粒度级别出发对特征表示进行优化的基础上,结合注意力机制,赋予影响文本分类结果的关键特征更高的注意力概率值;在卷积层中设计不同尺寸的卷积核文本的深层语义特征进行提取。在池化层使用最大池化方法对特征进行降维和压缩。最后高质量的特征向量在全连接层进行连接并且通过softmax分类得出文本所属类别。实验结果表明,本文模型的准确度、召回率和F1值分别达到96.4%、95.9%和96.2%。说明改进后的CNN模型通过特有的层次结构,能够从文本浅层语义特征中提取深层语义特征,为建立高效精准的新闻文本分类模型提供了有力的支持。
其他文献
<正>列宾美院的历史可以追溯到18世纪。1764年,叶卡捷琳娜二世宣布皇家美术学院(即现在的列宾美术学院)成立。在美术教学上,学院在学习欧洲古典主义教学方法的基础上,经过不
<正>经外周穿刺中心静脉置管(peripherally inserted central catheter,PICC),是指由外周静脉(贵要静脉、肘正中静脉、头静脉等)穿刺插管,将导管送至上腔静脉的方法,可减少静
着重研究K线在PC机与汽车天窗马达ECU通讯中的应用,先介绍ISO9141通讯标准和K线通讯特点,然后分别从系统的整体结构、硬件结构、软件结构等方面进行说明。
目的研究不同水平糖化血红蛋白对糖尿病合并脑梗死的影响。方法将糖尿病合并脑梗死患者200例根据糖化血红蛋白水平分为4组:A组(Hb A1C=6%~7%)49例、B组(Hb A1C=7%~8%)51例、C
目的探讨心理护理联合康复护理指导在乳腺癌患者术后中的应用价值。方法选取我院收治的80例乳腺癌患者作为研究对象,将其随机分为观察组和对照组,每组各40例,对照组单纯采用
<正>这种要求严苛的图形流程曾经是定制ASIC内核的应用,而如今却成为低成本FPGA的天下作为一种以FPGA为构建基础,而非采用专业多媒体片上系统的手持设备,MilkymistOne无须计
辅料管理信息系统是为卷烟企业设计的一个基于WEB的管理信息系统,选用B/S结构,采用微软ASP.NET技术,并利用VB.NET语言进行编码。对该系统进行了分析和设计,提供了在系统开发中遇
以《国医论坛》创刊以来被引频次在20次以上的80篇高被引论文为研究对象,统计高被引论文的总体概况,分析高被引论文的时间分布特征、作者所属机构分布、引证文献类型分布、论
当前审计环境中,审计合谋现象普遍存在,双重审计制度可以看作是阻止审计合谋的一种制度设计.在分析审计合谋成因的基础上,建立了一个包括引入第二个审计师的概率因子、融合外
下尿路手术中对控尿神经的损伤是造成患者术后尿失禁的重要因素 ,近年来的研究表明盆丛和阴部神经盆内、盆外分支都参与控尿神经的组成 ,解剖学的发展使下尿路手术中保护控尿