论文部分内容阅读
随着互联网技术的不断发展和成熟,各种数字化信息的产生和发布速度呈爆炸式增长,海量文本数据占据较大比例。如何在海量文本数据中进行自动快速分类,已经成为了一项值得深入研究的课题。传统的人工文本分类方法是以人工方式按规则来构建分类器,已无法应对当前的数据量。近些年,随着深度学习技术的快速发展,因其强大的表征能力,使得能够更好的提取文本中的主要信息,在文本分类中取得优异的成果。因此,本文利用深度学习的方法通过对中文文本分类中数据预处理、文本特征表示及分类器模型进行研究,提出一种新框架,具体研究内容及结果如下:本文首先介绍了文本分类相关理论,主要从文本分类定义及流程、文本预处理、中文文本特征向量表示模型、特征词提取算法等方面进行了详细介绍。其次,针对中文文本存在噪声多、特征稀疏的问题,在输入分类模型前,有必要去除无用特征词,提出一种基于关键词策略和卷积神经网络的中文文本分类框架。在该框架中,首先基于Word2Vec构建词向量模型,然后采用分词频文档频率(Segmentation Term Frequency-Document Frequency,STF-DF)筛选出类别区分能力强的关键词,来作为样本的特征词集合,通过有效去除样本无用特征词来获得更精准的文本特征表示;在此基础上构建一种适合于中文文本分类的卷积神经网络(Convolution Neural Network,CNN)进行分类。实验结果表明,该框架在THUCNews和复旦大学中文文本数据集中的准确率分别达到了 94.51%和95.04%,同时在真实的有害信息数据集中取得了99.70%的召回率,验证了所提出框架的有效性。最后,针对文本不平衡数据集中的少数类别识别率低的问题,从特征词提取算法和目标损失函数两方面进行优化:在特征词提取方面,对卡方统计(CHI Square,CHI)和TF-IDF算法进行改进,提出一种新型的CHI-TF-IDF的特征词提取算法,通过提高少数类别特征词权重而获得选取高优先级,避免特征信息的损失从而提高分类的准确度,所提出的算法在各类不平衡数据集中都取得了较好效果,其中,在THUCNews数据集构建的二分类不平衡数据集实验中F1值比CHI算法高出2.56%;在目标损失函数方面,将应用在图像领域的Focal Loss损失函数应用于文本分类,并对其进行超参数的选择,从而在一定程度上;能提高不平衡数据集的分类性能。实验结果表明,无论是在二分类还是多分类中,本文改进的方法都能够提升少数类别的识别率,其中在构建的THUCNews二分类不平衡数据集下,宏F1值(各类F1值的平均值)提升了2.55%。