论文部分内容阅读
伴随着信息时代的到来,人们越来越习惯于在网上购物,使得网络中的评论文本量呈爆炸式增长,人们对如何从海量评论文本如淘宝网的商品评论中快速获取有价值的信息提出了更高的要求。实际应用需求使得观点挖掘迅速发展,越来越多的学者和专家对其进行研究并将其应用于实际生产生活中。观点挖掘可细分为多个任务,现在较为公认的划分方式将观点挖掘细分为观点提取、极性分析、观点总结。其中,观点提取及极性分析是观点挖掘中极为重要的任务。本文的研究工作主要围绕着抽取评价对象,利用评价短语判断观点极性进行展开。常见的评价对象抽取方法,大多数依赖于人工制定的规则,因此对于特定领域评价文本挖掘效果较好,缺乏通用性。同时,在现实环境中,评论文本不断地进行更新、扩充,而过多的人工参与使得评价抽取方法的实用性降低。针对以上提出的问题,本文提出了基于CRFs和联合聚类的评价搭配提取方法。将评价对象和评价短语的识别问题作为序列标注问题中的一种,利用CRFs模型提取出评价要素候选集。通过使用联合聚类算法,充分利用评价对象和评价短语双方的信息,排除错误识别的评价要素,同时对评价对象和评价短语进行匹配。算法中,可调整的参数包括评价要素聚类的数目以及评价对象与评价短语之间的距离。本文提出了基于HowNet的观点极性判断方法,在HowNet提供的情感词典的基础上,加入同义词和网络情感词,构建情感词典,为后续的中文观点极性判断提供基础。此外,根据网络评价文本中评价词的特性,采用TF-IDF计算评价词自身提供的强度信息。综合考虑评价词在情感词典中的极性和强度、评价词自身提供的强度信息以及程度修饰词的影响,最终完成观点极性判断及强度计算。本文使用数据堂提供的酒店领域评论文本以及笔记本电脑评论文本对上述方法进行验证分析,实验结果验证了本文提出的评价搭配提取方法的可行性和有效性。