论文部分内容阅读
随着Internet和电子商务的发展和普及,Web在很大程度上改变了用户反馈观点的途径。用户购买和使用产品之后会在Web上发表对产品的评论,这些评论中包含用户对产品性能或功能等方面肯定或者否定的态度。生产厂商和用户可以通过分析产品评论获得大量有用信息。但是,Web上评论信息是海量的,属于无结构化数据,生产厂商和用户要想从产品评论中获取信息只有通过人工阅读的方式,而这是一个消耗时间且容易产生错误的过程。因此,产品评论挖掘的研究应运而生,其中用户观点抽取和极性分类是关键的技术,具有十分重要的研究价值。本文针对产品特征词语的抽取和用户观点抽取和极性分类的技术进行了深入研究,主要包括以下几个方面:首先,介绍了产品评论挖掘的研究背景及意义和国内外研究现状,阐述产品评论挖掘中的关键技术。同时,提出了进行评论数据的预处理的一套方案。其次,研究分析了基于统计和基于模式抽取和匹配的产品特征词抽取算法,并将二者结合起来分别用于高频和低频特征词的抽取。抽取包含名词的词语序列作为候选特征词,并制定三个规则进行裁剪获得高频特征词。随后,利用模式抽取和匹配的方法寻找低频特征词。实验结果表明,基于统计和基于模式抽取和匹配的产品特征词抽取算法比基于关联规则挖掘频繁项集和使用支持度裁剪的方法取得了更好的效果。抽取出的特征词语划分为通用特征和专属特征,并构建产品特征库。然后,提出一种基于句子依存关系产生特征和观点关联对的算法。从评论句子中提取出词语的词性和词语间的依存关系,组成依存关系词性对,并通过特定的依存关系词性对来产生特征和观点关联对,以此找出用户观点和产品特征的对应关系。接着,研究提出了特征和观点关联对的极性强度计算方法,根据计算结果进行用户观点的极性分类。使用基于HowNet等资源的中文极性词典判断特征和观点关联对的极性和计算极性强度,并进一步说明对产品型号、产品特征和评论文本进行极性分类的方法。实验结果表明,基于特征和观点关联对和极性词典的极性分类方法对中文产品评论的用户观点极性分类取得了较好的结果。最后,对本文的研究工作进行总结,提出了今后进一步的研究方向。