论文部分内容阅读
随着电子商务和web 2.0应用的发展,越来越多的消费者在购买和使用产品之后,喜欢在电子商务网站、论坛、博客发表对产品的观点态度,这些评论包含了用户对产品的特征,功能,性能等的看法,消费者在购买产品之前总会咨询别人对产品的意见从而做出明智的购买决定,厂家也可以根据用户的评论来改进产品,人工的去浏览这些海量产品评论是费时和低效的,并且还有滞后性和片面性。近来,如何对大量的非结构化的网络产品评论自动的进行观点抽取成为了一个研究热点。本文针对情感观点抽取资源的构建、产品属性特征的抽取、属性特征词与情感词的搭配识别及极性判定进行了深入研究,本文的主要研究工作如下:(1)利用开源工具Larbin和Xpath,针对购物网站的手机频道进行定向爬虫,并根据网页格式利用Xpath进行元数据抽取,最终构建手机评论语料库。(2)在构建情感观点抽取资源方面,提出了基于百度百科的基础情感词典构建方法、基于连词词典和依存句法关系相结合的领域情感词典方法、网络情感词典、情感修饰词典的构建方法。(3)在产品属性特征抽取方面,提出了基于规则和统计的识别算法和基于CRF的属性特征改进识别算法来抽取产品属性特征,前者的准确率达到0.56,覆盖率达到0.73,而后者的准确率更高,为0.78,但覆盖度仅0.46,为了与其他研究者进行比较,将Hu和Liu的方法应用到本实验环境,实验表明本文的两种方法好于Hu和Liu的方法。(4)在属性特征与情感词搭配识别及极性判定方面,提出了基于SVM搭配识别算法,并与最近邻匹配算法、基于依存句法搭配识别算法做了对比实验, SVM搭配识别算法的准确率达到0.83,覆盖率达到0.62,F值为0.71,远远高于其他两种方法,取得了最好的性能。