论文部分内容阅读
用户购买和使用产品后会通过Web发布对产品特征、功能和性能等方面进行评价的产品评论。对蕴含丰富信息产品评论进行分析,不仅可以帮助用户购买合适的产品,也可以帮助生产商和销售商改进产品。Web中存在海量产品评论,且大多用自然语言描述,人工阅读方式从中获取信息是非常艰苦工作,因此产品评论自动挖掘就变得越来越重要。
目前产品评论挖掘已引起广泛重视,并已有一些实验系统。本文对产品评论挖掘中的需改进环节和尚未涉及环节所需的关键技术进行研究,包括产品评论自动过滤、产品特征自动抽取和用户希望挖掘。
本文取得的主要成果和创新工作概括如下:
①提出了基于Co-training的产品评论自动过滤算法。产品评论发布过程缺乏审核和校对,大部分产品评论质量较低,对产品评论挖掘的后续工作造成不良影响。本文将产品评论自动过滤看作分类过程,并将文本内容作为度量产品评论质量地关键因素。为避免人工构建大规模标注语料,本文采用Co-training算法,将分类特征分解为相关性特征和主观性特征,分别从小规模人工标注产品评论语料训练相关性分类器和主观性分类器,利用两个分类器对大量未标注的产品评论进行分类,从中选择高准确率的产品评论加入标注集合,该过程不断迭代,最终获得高质量产品评论。
②提出了基于Bootstrapping的产品特征自动抽取算法和基于Co-training的产品特征自动抽取算法。产品特征是指产品的功能、性能、部件或属性,是用户情感表达的对象。作为产品评论挖掘的第一步,产品特征的质量决定最终挖掘效果。基于Bootstrapping的产品特征自动抽取算法仅需要少量产品特征构成种子集合,首先从这些产品特征出现的语句中抽取文本模式,然后用文本模式抽取新的产品特征并更新种子集合,该过程不断迭代,直到没有抽取到新的产品特征为止。迭代过程中若有错误的产品特征加入种子集合,会导致算法性能急剧下降,因此采用基于Co-training的产品特征自动抽取算法提高性能。基于Co-training产品特征自动抽取算法的需要两个种子集合:产品特征种子集合和普通名词种子集合,首先分别利用这两个种子集合构建标注语料训练产品特征分类器和普通名词分类器,然后利用这两个分类器对未标注名词进行分类好对分类结果相互验证,从而对产品特征种子集合和普通名词种子集合进行扩充,该过程同样不断迭代,直到对产品特征种子集合没有更新为止。
③提出了基于类序列模式挖掘和Na(i)ve Bayes分类算法的希望语句确定算法和基于序列规则挖掘算法、KNN聚类算法和启发式规则的希望关系挖掘算法。产品评论挖掘着重研究与产品特征相关的用户情感,抛弃了产品评论中的非情感信息,如用户希望。用户希望是用户内在思想的表示,对生产商和销售商更显珍贵。本文将用户希望挖掘分为两个阶段:希望语句确定和希望关系挖掘。第一阶段首先通过人工定义希望关键字发现候选希望语句,然后对候选希望语句进行人工标注并从候选希望语句中抽取类序列模式,最后以类序列模式作为特征训练Na(i)veBayesian分类器,该分类器用于判定候选希望语句是否是真实希望语句。第二阶段将希望关系挖掘包含两部分内容:用户希望类型和用户希望实体。用户希望类型包括:用户对产品的改进建议和用户对产品的购买意图。用户希望的实体是用户希望的直接对象。本文设计了基于文本序列模式的中心词语聚类算法以确定希望关系中的用户希望类型和用户希望实体。该算法首先从产品评论语句中抽取以目标词汇为中心的序列模式,然后以序列模式为特征对所有的目标词汇进行聚类,最后根据启发式规则确定每个目标词汇集合的属性。分别将评论语句中的名词和动词作为目标词汇进行聚类,希望语句中的名词聚类为三类,动词聚类为两类,并采用启发式规则识别动词集合和名词集合的类型。对于三类名词集合,由于产品名称容易从Web获取,可首先确定产品名称集合,又由于产品名称和产品特征之间存在“整体-部分(part-of)”关系,因此利用表示“part-of”关系的文本模式确定产品特征集合。对于两类动词集合,用户希望的类型通过希望语句中的动词进行确定,表示用户对产品的改进建议的希望应该与具体的产品特征相关,而表示用户对产品的购买意图的希望应该与产品的品牌或产品名称相关,因此通过分析两个动词集合中词语分别与产品特征集合和产品名称集合中元素的共现关系以确定希望的类型。