论文部分内容阅读
越来越多在线产品的销售导致产品评价数量呈爆炸式增长,一些网站上的单个产品评价数量就能达到成百上千条。这些评价信息对潜在客户、产品生产厂商和产品销售商都非常有价值,蕴含着巨大商机。越来越多的研究者也致力于从这些产品评价中分析购买者在评论中所表达的与所购买产品或产品特征相关的观点、态度和情绪等。这样的研究就是情感分析。它涉及到多个研究领域,如信息检索、自然语言处理和数据挖掘等。本文的主要工作如下:(1)提出一种基于句法结构关系对中文产品评论中所描述产品特征进行识别的方法,通过多策略方案抽取出产品评论中出现的不同层次的产品特征,并完成基于产品特征属性的情感分类。此项工作解决了情感分析和观点识别中两个方面的问题:产品特征的抽取和基于产品特征的情感方向识别。产品特征抽取的任务是通过计算产品评论中单词的词频和基于句法关系的双向传播算法抽取产品候选特征,并通过特征剪枝的方式去掉了影响算法准确性的冗余特征。基于产品特征的情感方向识别方法能有效对同一个情感词在不同句子中的情感进行识别,能够考虑到相同的单词可能在不同的句子中表达不同的观点,而不固定单词的情感方向。实验证明,所提方法能够获得较高的精确度、召回率和F-值。(2)提出了在语境环境因素的影响下,采用两种不同策略抽取情感词的方法,即基于距离的情感词抽取和基于句法关系的情感词抽取。通过这两种策略提取客户产品评论中出现的情感词,进而识别出产品评论中出现的观点句,判定观点句所表达的情感方向。文中对所提两种方法的执行效果进行比较,能够结合上下文关系和句子所处语境对观点词和观点句的情感极性进行预测,并对方法的有效性进行实验验证。(3)提出一种基于条件随机场模型CRF的跨领域主题词与情感词抽取算法,即CRF-CDOA算法。将中文的语法规则加入到条件随机场的模型中,通过迭代的方式不断提高源域数据和目标域数据的相关度,用相关度较高的数据去训练条件随机场模型。方法用于在不同领域中对主题词和情感词的抽取。CRF-CDOA算法可以在不标注目标数据域的情况下对语料库中的数据进行识别。最后通过实验验证所提CRF-CDOA算法的有效性。(4)提出基于多维特征工程的三种虚假评论识别方法。在加入产品特征抽取、观点句判断等条件的前提下,定义了 6个用于识别虚假评论的特征参数,构建基于多维特征工程的虚假评论识别模型,同时对挑选的特征工程的有效性进行了验证。在多维特征工程模型的基础上,提出了基于并关系的多维特征工程识别算法、基于加权多维特征工程打分的识别算法和基于加权多维特征工程分类的识别算法,文中对三种方法的执行效果进行比较。基于多维特征工程虚假评论识别模型可以有效过滤出虚假评论。