论文部分内容阅读
文本情感分类在舆情分析、电子商务、信息拦截、金融投资等领域有着广泛的应用。基于特征工程的传统文本情感分类方法费时费力,且泛化能力差,深度学习算法克服了人工设计选择特征的缺陷,可以自动学习并描述文本的特征,在文本情感分类领域表现突出。目前文本表示常采用word2vec工具,但该工具训练出的分布式词向量仅仅包含词的语义信息,而忽略词的情感信息和词性信息。与此同时,很多文本特征提取的研究仅仅围绕着词进行,而忽略了文本的结构信息。本研究基于上述不足,做了如下工作:1.对文本情感特征表示方法进行改进,本研究提出两个模型:W-P词的情感特征表示模型和融合情感特征的文本表达模型。W-P词的情感特征表示模型利用word2vec训练包含语义信息的分布式词向量,同时利用情感词典和结巴分词工具抽象化表示词的情感信息和词性信息,并将两者连接起来形成包含词的语义信息、情感信息及词性信息的词向量。融合情感特征的文本表达模型是基于W-P词的情感特征表示模型,通过引入Bi-LSTM网络学习词的上下文信息,训练出融合词的上下文信息、语义信息、情感信息及词性信息的词向量,该词向量可以很好的表达词的信息。通过文本情感分类实验,验证了上述两个模型的有效性。2.在改进1的基础上,对文本情感特征提取方法进行改进,本研究提出序列结构化的文本特征提取模型。该模型通过融合情感特征的文本表达模型学习词序列信息,利用CNN网络提取文本的结构信息,同时在中间加入注意力机制,达到有选择性的去冗余的目的,从而实现多层次提取文本信息,减少文本信息的丢失。实验结果表明,该模型实现了分类效果的提升。