论文部分内容阅读
随着互联网的快速发展,更多的消费者开始通过Internet了解、购买产品并且发表评论。面向产品评论观点挖掘就是为了从海量的评论信息中挖掘出用户关心的事物的情感倾向性,可以帮助潜在消费者更好地了解产品,以及为制造商提供改善产品或服务决策的依据。相对于目前主要研究的句子或篇章级别情感分类,用户更期待细粒度属性级别的意见挖掘结果。现有的意见挖掘主流方法中,利用规则的抽取方法灵活性和扩展性有待于提高;而基于隐马尔可夫模型或条件随机场的属性抽取方法则不能很好的处理长距离情感要素依赖的问题。此外,目前的产品评价意见挖掘算法往往忽略了两类特殊的情感表达句式的处理,即比较情感句和否定情感句。本文工作主要集中在以下几个方面:第一,改进了产品评论中的细粒度评价单元抽取算法。该算法将评价单元抽取问题转化为结构化序列标注问题,并引入了词语的属性标识、词语在依存句法树上的依存关系(顺序结构,连词结构和句法结构)作为新特征。在细粒度情感分析语料库CUHK-HIT Opinmine上对该模型进行实验验证显示。第二,在此基础上通过计算属性词与对应于面向领域本体评价概念节点实例词语之间的相似度以及二者各自关联的评价词之间的相似度,实现了面向领域的评价概念节点实例词的扩充。通过引入评价概念节点词语知识,进一步提高了产品评价挖掘的性能。第三,分别研究了基于规则和基于最小多支持度的类序列规则的统计机器学习的方法用于比较情感句的识别。再次基础上研究了基于条件随机场比较要素抽取方法,并利用比较句的句式特征对比较要素的情感倾向性进行了判别。第四,研究了基于否定词表和判定规则的方法,利用子句的情感倾向性计算整段文本的情感倾向性。实现了否定句的情感倾向性判别。本文主要贡献如下:首先,改进了细粒度评价对象和评价词抽取算法,相对于树结构条件随机场在CUHK-HIT Opinmine数据集上评价对象抽取准确率和召回率各提高了4.8%和3.5%。其次基于类序列规则的统计机器学习的比较句识别方法在COAE2012比较情感句分析数据集上召回率达到79.3%,准确率达到87.0%的成绩。此外,实验显示本文提出的基于规则的否定句情感倾向性判断取得了较好的效果。