论文部分内容阅读
随着信息技术在人们日常生活中的广泛应用,文本信息正以指数形式增长,如何对海量文本信息进行有效管理,进而快速了解文本信息的价值成为了研究的焦点。其中,文本表示和文本分类是文本信息管理的关键技术。传统文本表示采用统计学的方法,假设词之间相互独立,未考虑语义信息,提取的文本特征数据稀疏、维度高,丢失了大量的文本信息。如今,文本信息语义丰富,主题多样对文本分类提出了更高的挑战,尤其是面对长文本的分类问题时,传统浅层的文本分类器泛化能力一般,不能满足分类管理要求。深度学习层与层之间特有的结构,可以从浅层或者中层特征中提取到高级特征,很好的解决了文本分类面临的上述问题,为文本表示内容的准确提取和文本分类模型的精准构建提供了支持。本文应用文本分类技术,在研究深度学习各类算法基础上,将深度学习有效的应用到文本表示和文本分类中并进行深入研究,主要完成如下工作:(1)提出改进的Fasttext模型用于中文长文本分类,可解决Fasttext模型进行复杂的长文本分类工作时,丢失太多文本上下文的信息的问题。经THUCNews数据集实验分析,改进的Fasttext模型既保证了文本分类的准确性,又降低了词向量训练速度。(2)针对长文本在特征提取时采用词向量进行文本表示导致训练时间长,分类结果不理想等问题,在PV-DM模型研究基础上,提出采用无监督的学习方法生成文本句向量,进而实现句子级别的文本分析,提高了长文本的分析速度。(3)针对长文本分类器提取语义关键特征难度大,分类效果差等问题,建立了基于循环神经网络和卷积神经网络的BGRU-CNN混合模型,实现了长文本的准确分类。采用THUCNews数据集和SogouC数据集的训练集,分别训练BGRU-CNN混合模型并进行测试实验,与CNN、LSTM、GRU、B-LSTM、B-GRU,5个文本分类模型进行对比。通过实验的比较分析,证明了BGRU-CNN混合模型的有效性。本文针对复杂中文长文本的分类,提出了改进的Fasttext模型文本表示方法和BGRU-CNN文本分类方法,不仅在理论上提供了解决方案,而且在应用层面同样具有指导意义。图32幅,表9张,参考文献64篇