论文部分内容阅读
在信息时代,社交网络、视频监控、智能交通等信息系统时刻产生海量的数据。如何在海量数据中找到有价值的信息,是人们持续研究的热点之一,而文本方面的信息挖掘需求更为突出。文本分类是文本数据挖掘领域的主要任务,近年来,深度学习算法以其强大的特征表达能力在文本分类任务中得到了普遍的应用。词向量是文本分类引入深度学习的基础,现有的Word2vec词向量模型没有考虑词性信息,不能很好的区分词义。此外,深度学习需要大量标定数据去学习潜在的数据特征。然而,构建一个大规模、高质量的标定数据集非常困难,这就导致数据不足时,深度学习造成过拟合现象。对此,本文主要研究以下内容:(1)构建基于词性特征的卷积神经网络文本分类模型(TextCNN based on POS Features,POS-TextCNN)。针对Word2vec词向量模型没有考虑词性信息的问题,本文模型在经典的文本卷积神经网络模型的输入层增加具有词性特征的文本表示输入层,与词向量表示形成双通道输入,以解决Word2vec模型不能区分多义词的现象。在亚马逊商品评论数据上的情感分类实验表明,该模型的查准率、查全率和F1值均高于TextCNN模型,说明具有词性的文本表示在POS-TextCNN模型中具有一定作用。(2)提出基于POS-TextCNN模型的迁移学习算法(Transfer POS TextCNN,Tr-POS-TextCNN)。针对POS-TextCNN模型在数据不足情况下易造成过拟合现象,本文引入迁移学习的思想,迁移源领域相关知识以保证模型分类的准确性。在亚马逊商品评论数据上的跨域情感分类实验表明,与其他迁移学习算法相比较,该算法比最优的算法准确率提升了1.92%~3.28%。此外,本文还对POS-TextCNN模型的迁移学习和非迁移学习算法的优越性、模型参数的敏感性和准确性以及迁移学习中目标领域训练样本量对算法分类效果的影响进行了实验探究,得出了相关结论。(3)设计并实现基于Tr-POS-TextCNN算法的商品评论分类系统。商品评论数据存在标定数据获取难和数据时效性问题,将本文算法应用于商品评论分类系统的跨域情感分类,证明了本算法的有效性和可行性。