论文部分内容阅读
随着互联网的普及以及web2.0的发展,越来越多的消费者习惯于在网上发表评论信息,网上的评论信息也呈现出爆炸式增长的趋势,此外不同的消费者对同一款产品的关注点一般也并不相同,消费者感兴趣的方面的信息很可能被淹没于评论信息的海洋之中,消费者想要查找自己感兴趣的方面,也变得越来越困难。因此,面对这些对于消费者和商家来说都有很大的价值的评价信息,如何发掘这些价值,利用这些评价信息,为消费者快速的查阅其所感兴趣的方面提供便利,提供更细粒度的服务,也变得越来越重要。为此进行基于情感抽取的产品评论信息分析很有必要,并且意义重大,其中产品属性词的抽取又是十分重要的一环。基于此,本文的研究重点集中在产品属性词的抽取,并且通过属性词间的聚类形成方面属性词簇。所谓方面属性词是指表示产品某个方面的属性的所有抽取出来的特征词。本文针对英文产品方面属性词抽取,提出了一种基于bootstrapping的抽取方法,该方法利用少数几个种子依存关系模板,通过增量迭代的过程发现新的属性词,在每一轮迭代中通过统计技术,结合情感词典的情感词分析,利用属性词与模板的亲密度关系得到属性词被抽取出的概率得分,对候选属性词进行排序过滤。对于抽取后的特征词集利用基于web的属性词相似性计算属性词间的相似度,根据相似性得分采用改进的针对属性词的K-Link层次聚类算法进行聚类得到产品不同方面的属性词类簇,同时过滤掉得分较低的类簇,进一步去掉噪声。该方法利用种子依存关系模板代替种子属性词以提高系统的可移植性,种子依存关系模板的选取是根据一种基于关联规则分析的初始种子依存关系模板的识别方法来获得。本文的主要工作及结论体现在以下几个方面,(1)提出了一种基于关联规则分析的初始种子依存关系模板的识别方法(2)提出了一种基于bootstrapping的改进的元自扩展的抽取框架(3)提出了一种属性词与依存关系间的亲密度计算方法(4)提出了一种基于web的属性词相似性计算方法(5)提出了一种改进的针对属性词的K-Link层次聚类算法(6)实现了基于bootstrapping的产品属性词抽取系统SSPA(7)围绕产品属性词的抽取问题设计了六组对比试验。总之,针对bootstrapping框架,通过对上述几个方面的研究与改进,即提高系统的可移植性,也使产品属性词抽取的准确率,召回率有所提高。实验结果表明,利用该方法进行产品方面属性词抽取的准确率为0.819,召回率为0.799,调和平均值为0.809,优于现有方法,具有较好的抽取性能。