论文部分内容阅读
近年来,随着电子商务的快速发展,数以亿计的消费者在互联网上发表了海量的产品评价,因此,面向产品评价的意见挖掘研究成为研究热点之一。由于评价中可能提及产品的多个方面,基于篇章和句子级别的传统粗粒度意见挖掘不再适用,因此,词语级别的细粒度意见挖掘研究逐渐兴起。对产品评价进行细粒度意见挖掘,不仅能为消费者提供准确的决策支持,还可以帮助生产商对产品和服务进行精准改进,具有重要的研究意义与实用价值。本文针对产品细粒度意见挖掘的以下三个关键技术问题展开研究。 首先,提出基于潜在状态序列模型的意见要素识别模型,识别评价对象和评价词。细粒度意见主要由评价对象和评价词这两个要素组成。意见的这两种要素存在多种特性,如语义特性、情感特性、序列特性、语境特性和关系特性,导致意见要素描述复杂,这要求意见要素识别模型具有较强的识别能力。而且,意见要素数量巨大,一件产品就存在成千上万的评价,而一条评价又提及产品的多个方面,这给快速识别意见要素提出了挑战。同时,随着产品的更新换代,意见要素更新速度快,这要求意见要素识别模型具有较强的更新能力和鲁棒性。传统的意见要素识别方法主要基于词典规则和机器学习,前者更新速度较慢,后者,如目前最优的条件随机场模型仅考虑了序列特性,而未考虑其他特性。因此本文综合考虑到意见要素的多种特性、识别速度和模型鲁棒性因素,在条件随机场模型的基础上引入表示意见要素特性的潜在状态,提出基于潜在状态序列模型来同时识别评价对象和评价词。在公开数据集和应用数据集上的实验表明,该方法可以快速有效地同时识别评价对象和评价词。 其次,在意见要素的识别基础上,提出基于潜在关系的细粒度意见二元组抽取模型,考虑隐式意见要素来抽取<评价对象,评价词>。由于评价文本中未明确提及意见要素,或意见要素识别模型的识别误差因素,导致细粒度意见二元组抽取不全。在细粒度意见二元组中缺失的意见要素被称为隐式意见要素,反之则称为显式意见要素。传统方法通常利用评价对象和评价词在所有评价中的共现关系将隐式意见要素映射到显式意见要素上,但是当评价文本中未抽取到评价对象和评价词的共现关系时,该方法将失效。与此同时,词之间的语义关系不依赖于两词的共现关系而存在。因此,本文在引入意见要素之间的共现关系的同时,引入意见要素之间的潜在语义关系,提出基于潜在关系的细粒度意见二元组抽取模型,抽取细粒度意见二元组<评价对象,评价词>。实验表明,利用该方法不仅可以从评价文本中挖掘隐式意见要素,还可以将细粒度意见二元组中模糊的意见要素映射成语义清晰的意见要素。 最后,在意见要素的潜在关系基础上,提出基于结构相似度的细粒度意见聚类算法。细粒度意见数量巨大,浏览者无法根据海量的细粒度意见直观得出产品的主要特色。且细粒度意见要素存在大量同义词,评论者常使用不同的词或短语来形容相同的内容,这使得浏览者总是阅读冗余信息。传统细粒度意见挖掘研究中,常用细粒度意见摘要来挑选具有代表性的评价对象,并汇总其情感倾向来描述产品意见。然而大多算法致力于研究情感分析的研究,忽略了意见要素同义词的问题。因此,本文综合考虑细粒度意见要素存在评价对象和评价词两种类型,根据细粒度意见要素之间的潜在关系,构建意见要素关系网络,通过意见要素的相邻网络结构,提出基于结构相似度的产品细粒度意见聚类算法,将描述产品同一方面的意见要素聚集起来,挑选其中的核心细粒度意见二元组作为产品意见。实验表明,利用该方法可有效地对细粒度意见进行聚类,且每个簇内的意见要素都具有语义相关性。 综上所述,本文提出基于潜在关系的产品细粒度意见挖掘方法,在公开数据集和应用数据集上的实验表明,本文提出的方法能够比当前主流的细粒度意见挖掘算法取得更好的性能。进一步地,本文将所提方法应用于真实的产品意见分析系统中,对具体化产品特性,改善用户体验具有很大作用。本文提出的方法除了应用于产品意见挖掘领域之外,还在数据挖掘、信息抽取、文本分类聚类等领域具有广泛的应用前景。