基于深度学习的文本表示与分类研究

来源 :西安工程大学 | 被引量 : 0次 | 上传用户:dyflovedyf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术在人们日常生活中的广泛应用,文本信息正以指数形式增长,如何对海量文本信息进行有效管理,进而快速了解文本信息的价值成为了研究的焦点。其中,文本表示和文本分类是文本信息管理的关键技术。传统文本表示采用统计学的方法,假设词之间相互独立,未考虑语义信息,提取的文本特征数据稀疏、维度高,丢失了大量的文本信息。如今,文本信息语义丰富,主题多样对文本分类提出了更高的挑战,尤其是面对长文本的分类问题时,传统浅层的文本分类器泛化能力一般,不能满足分类管理要求。深度学习层与层之间特有的结构,可以从浅层或者中层特征中提取到高级特征,很好的解决了文本分类面临的上述问题,为文本表示内容的准确提取和文本分类模型的精准构建提供了支持。本文应用文本分类技术,在研究深度学习各类算法基础上,将深度学习有效的应用到文本表示和文本分类中并进行深入研究,主要完成如下工作:(1)提出改进的Fasttext模型用于中文长文本分类,可解决Fasttext模型进行复杂的长文本分类工作时,丢失太多文本上下文的信息的问题。经THUCNews数据集实验分析,改进的Fasttext模型既保证了文本分类的准确性,又降低了词向量训练速度。(2)针对长文本在特征提取时采用词向量进行文本表示导致训练时间长,分类结果不理想等问题,在PV-DM模型研究基础上,提出采用无监督的学习方法生成文本句向量,进而实现句子级别的文本分析,提高了长文本的分析速度。(3)针对长文本分类器提取语义关键特征难度大,分类效果差等问题,建立了基于循环神经网络和卷积神经网络的BGRU-CNN混合模型,实现了长文本的准确分类。采用THUCNews数据集和SogouC数据集的训练集,分别训练BGRU-CNN混合模型并进行测试实验,与CNN、LSTM、GRU、B-LSTM、B-GRU,5个文本分类模型进行对比。通过实验的比较分析,证明了BGRU-CNN混合模型的有效性。本文针对复杂中文长文本的分类,提出了改进的Fasttext模型文本表示方法和BGRU-CNN文本分类方法,不仅在理论上提供了解决方案,而且在应用层面同样具有指导意义。图32幅,表9张,参考文献64篇
其他文献
地方政府权力清单制度是党的十八届三中全会决定的一项制度,至今已推行逾5年。地方政府权力清单制度建设可谓发展迅速、成效显著,但也存在一些急需完善之处。本文基于全国31
随着互联网用户量的激增,使得网络中数据量飞速累积且数据格式也随之增多,搜索引擎成为了处于大数据背景下的网络用户获取所需信息的主要手段之一。但对于拥有不同专业背景的
药物不良反应(Adverse Drug Reactions,简称ADR)指患者在使用药物之后,对其造成的生理影响甚至引发的身体损伤。目前,越来越多的患者因服用药物会产生一系列的药物不良反应,
近年来海上突发事件的频繁发生,所带来的海洋环境与生态资源的污染正在全球范围日趋严重,海洋环境突发污染事件带来的环境污染影响已经引起了各个国家的高度重视,海洋环境的
随着IT技术的快速发展和移动智能终端的普及,身份认证逐渐渗透到人们日常生活中的各个角落。作为身份认证技术的重要研究领域,生物特征识别借助指纹、人脸和虹膜等人体固有生理特征进行身份验证,是连接自然人与科技社会的重要纽带。相比传统的身份认证方式,基于生物特征的身份认证具有便捷、唯一、可靠等诸多优势,被广泛应用于公安、金融以及电子商务等各个领域。然而,生物特征身份认证在为人们的生活提供便利的同时,也带来
随着人工智能时代的到来,计算机视觉作为人们日常生活的一种辅助工具,其作用也愈发的重要起来。目标检测在计算机视觉中是最切近人们日常生活的一个分支,近些年来更是在各个
随着经济发展速度的进一步加快,中小企业在发展的过程中对融资效率的重视程度有所提升,参与研究融资效率的专家也逐渐增多。但中国与西方国家不同,在发展资本市场的过程中起
近两年提出的CornerNet与CenterNet等无锚框一阶段目标检测方法,因为具有模型简单和一个真值对应一个正样本的特点受到关注.但由于正负样本与难易分样本不均衡和多个头部网络
当学生对新知识的理解与科学概念不一致时,会出现对概念的误解,称为“misconception”,或“迷思概念”。迷思概念的隐藏性和顽固性,导致学生对概念的认知总是出错。通过概念
研究政策过程是考察我国政府内部运作逻辑的重要窗口,有利于政府服务能力和治理能力的提升。政策过程中,由于部分环节是在政府内部进行,公众并不能直接观察、了解其内部结构