论文部分内容阅读
随着科技不断的发展,互联网对人们日常生活的影响也在日益增强,人们越来越倾向于在社交网络上发布自己对一些事物的看法和意见。舆情分析可以快速判断国民对重大事件的情感倾向,客观表达社会舆论导向,有利于特定主管部门和政府机构对舆情信息进行及时准确的管理和引导,维护社会的和谐安全。舆情信息大多来自于短文本评论信息,其文本脱离书面语言,结构变得更加简洁,缺乏规范性,常常给文本特征提取造成一定的难度。传统的情感分析方法往往依靠情感词典和特征提取,随着互联网文化和数据量不断的更新和迭代,需要大量的人工对情感词典进行更新,否则会造成语义特征丢失,分类不准确。本文在分析研究Attention机制和深度学习相关技术的基础上,提出一种HAN-CLSTM模型对文本的深层次语义特征进行挖掘,能够准确判断其情感倾向。本文的主要研究工作包括如下几部分:(1)根据CNN和LSTM在进行文本处理时的特点,CNN能够更好的提取文本局部特征,LSTM可以保留文本历史信息,有效提取序列的全局特征,为了使提取到的特征语义信息更加全面,将二者结合形成CLSTM模型。通过采用多组模型参数进行多次实验对比,得到具有最优参数的CLSTM模型,比传统的CNN模型与LSTM模型分类性能均有所提高。(2)针对CLSTM模型不能有效提取句子之间的层次关系和未考虑到对特征向量分配权重的问题,引人分层注意力机制对CLSTM模型进行优化,提出一种HAN-CLSTM模型进行文本情感倾向分类,该模型对于不同的词级别特征向量和句子级别特征向量分配不同的权重,使模型在计算过程中更加关注对分类结果有影响的特征向量。最后通过NLPCC数据集进行实验证明,改进后的HAN-CLSTM模型比CLSTM模型分类性能更优,进一步与其他代表性论文工作进行实验对比,结果表明该模型性能评价指标精度、召回率、F1值均高于其他分类模型。