论文部分内容阅读
互联网技术的快速发展和电子商务的日渐普及,使网上消费逐渐成为日常生活中的一种常态。网购过程产生了大量线上商品评论数据,对这些数据进行情感倾向性分析既可以为消费者提供购买参考又能够帮助商家优化商业决策。目前,商品评论情感倾向性分析已经取得了一定的研究成果,但是,现有的研究依然存在分类精度不高、适用范围陕小等问题。情感分析方法中的两个主流方法分别是基于人工语义规则的方法和基于语料的机器学习方法。本文在人工语义规则方法方面进行了深入研究,提出了表达技巧情感分析方法,旨在保持跨领域的前提下提高情感分类的精度,后又将人工语义规则方法与机器学习方法相结合,在确定领域中进一步提升情感分类的精度。主要研究工作包括三部分:(1)基于信息传输过程中的编码与解码理论,本文提出一种基于表达技巧的情感分析方法。该方法针对评论的创造者为表达情感倾向而使用的不同表达技巧,分别设计表达技巧的识别和情感计算方案。在识别方面,根据表达技巧的结构特征适时选用简单关键词匹配与复合关键词匹配进行识别;在情感计算方面,根据识别精度的不同将表达技巧的情感计算分为直接计算与间接计算。最后,根据各分句表达技巧情感得分的平均值判断文本的情感倾向。(2)本文对传统情感词典情感分析方法进行了完善与改进。首先,在HowNet、NTUSD、大连理工情感词汇本体三大主流情感词词源的基础上,增加《褒义词词典》和《贬义词词典》作为词源,扩充了情感词典。其次,在情感计算过程中,额外考虑了含否定意义的动词对情感倾向的影响,以及否定词与程度副词的不同搭配关系。(3)针对表达技巧情感分析方法的不足,本文提出PSAS、PSBS两种将表达技巧与SVM进行结合的改进策略。PSAS以表达技巧和SVM各自的分类准确率作为权重,用加权和的形式将两种方法结合。PSBS以表达技巧作为特征提取的特征项,再利用SVM训练分类器进行情感分类。实验结果表明,两种结合方法都提升了表达技巧情感分析方法的分类性能。PSAS的情感分类效果优于两种独立的方法。