基于潜在关系的产品细粒度意见挖掘研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:Lisa2005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着电子商务的快速发展,数以亿计的消费者在互联网上发表了海量的产品评价,因此,面向产品评价的意见挖掘研究成为研究热点之一。由于评价中可能提及产品的多个方面,基于篇章和句子级别的传统粗粒度意见挖掘不再适用,因此,词语级别的细粒度意见挖掘研究逐渐兴起。对产品评价进行细粒度意见挖掘,不仅能为消费者提供准确的决策支持,还可以帮助生产商对产品和服务进行精准改进,具有重要的研究意义与实用价值。本文针对产品细粒度意见挖掘的以下三个关键技术问题展开研究。  首先,提出基于潜在状态序列模型的意见要素识别模型,识别评价对象和评价词。细粒度意见主要由评价对象和评价词这两个要素组成。意见的这两种要素存在多种特性,如语义特性、情感特性、序列特性、语境特性和关系特性,导致意见要素描述复杂,这要求意见要素识别模型具有较强的识别能力。而且,意见要素数量巨大,一件产品就存在成千上万的评价,而一条评价又提及产品的多个方面,这给快速识别意见要素提出了挑战。同时,随着产品的更新换代,意见要素更新速度快,这要求意见要素识别模型具有较强的更新能力和鲁棒性。传统的意见要素识别方法主要基于词典规则和机器学习,前者更新速度较慢,后者,如目前最优的条件随机场模型仅考虑了序列特性,而未考虑其他特性。因此本文综合考虑到意见要素的多种特性、识别速度和模型鲁棒性因素,在条件随机场模型的基础上引入表示意见要素特性的潜在状态,提出基于潜在状态序列模型来同时识别评价对象和评价词。在公开数据集和应用数据集上的实验表明,该方法可以快速有效地同时识别评价对象和评价词。  其次,在意见要素的识别基础上,提出基于潜在关系的细粒度意见二元组抽取模型,考虑隐式意见要素来抽取<评价对象,评价词>。由于评价文本中未明确提及意见要素,或意见要素识别模型的识别误差因素,导致细粒度意见二元组抽取不全。在细粒度意见二元组中缺失的意见要素被称为隐式意见要素,反之则称为显式意见要素。传统方法通常利用评价对象和评价词在所有评价中的共现关系将隐式意见要素映射到显式意见要素上,但是当评价文本中未抽取到评价对象和评价词的共现关系时,该方法将失效。与此同时,词之间的语义关系不依赖于两词的共现关系而存在。因此,本文在引入意见要素之间的共现关系的同时,引入意见要素之间的潜在语义关系,提出基于潜在关系的细粒度意见二元组抽取模型,抽取细粒度意见二元组<评价对象,评价词>。实验表明,利用该方法不仅可以从评价文本中挖掘隐式意见要素,还可以将细粒度意见二元组中模糊的意见要素映射成语义清晰的意见要素。  最后,在意见要素的潜在关系基础上,提出基于结构相似度的细粒度意见聚类算法。细粒度意见数量巨大,浏览者无法根据海量的细粒度意见直观得出产品的主要特色。且细粒度意见要素存在大量同义词,评论者常使用不同的词或短语来形容相同的内容,这使得浏览者总是阅读冗余信息。传统细粒度意见挖掘研究中,常用细粒度意见摘要来挑选具有代表性的评价对象,并汇总其情感倾向来描述产品意见。然而大多算法致力于研究情感分析的研究,忽略了意见要素同义词的问题。因此,本文综合考虑细粒度意见要素存在评价对象和评价词两种类型,根据细粒度意见要素之间的潜在关系,构建意见要素关系网络,通过意见要素的相邻网络结构,提出基于结构相似度的产品细粒度意见聚类算法,将描述产品同一方面的意见要素聚集起来,挑选其中的核心细粒度意见二元组作为产品意见。实验表明,利用该方法可有效地对细粒度意见进行聚类,且每个簇内的意见要素都具有语义相关性。  综上所述,本文提出基于潜在关系的产品细粒度意见挖掘方法,在公开数据集和应用数据集上的实验表明,本文提出的方法能够比当前主流的细粒度意见挖掘算法取得更好的性能。进一步地,本文将所提方法应用于真实的产品意见分析系统中,对具体化产品特性,改善用户体验具有很大作用。本文提出的方法除了应用于产品意见挖掘领域之外,还在数据挖掘、信息抽取、文本分类聚类等领域具有广泛的应用前景。
其他文献
随着企业信息化的发展,门户系统在许多企事业单位的信息系统建设中得到了成功应用。门户系统可以向用户提供单点登录,个性化设置和内容整合等功能,使用户能在门户系统中方便地获
软件过程工程包括过程建模、过程分析、过程例化、过程运作、过程度量和过程评估与改进。软件过程支撑环境是支持软件过程技术的集成环境,涉及过程模型定义、模型验证与分析、
学位
运营商的营业厅每月都会办理大量的业务,这些业务中大部分是按照规定办理的正常业务,但是还有一小部分是异常业务,这些业务可能是有意或无意地没有按照业务规定办理的,有可能给公
数字化校园是利用计算机技术、网络通讯技术对学校的教学、科研、管理和生活服务等所有信息资源进行全面的数字化,并科学规范地对这些信息资源进行整合和集成,以构成统一的用户
学位
本文在对于当前两大企业应用平台J2EE和.NET的分析基础上,选择了基于Windows的.NET平台为基础,设计了一种基于.NET的网格计算框架Enterprise Grid Computing Framework(以下简称EG
随着互联网和多媒体技术的快速发展,图像数据不仅在人类的日常生活中以惊人的速度不断增长,并且在当前信息化社会的诸多领域中发挥重要作用。面对海量的图像数据,如何有效地组织
随着工业自动化水平的迅速提高,计算机在工业领域的广泛应用,人们对工业自动化的要求越来越高,种类繁多的控制设备和过程监控装置在工业领域的应用,使组态软件的发展有着光明的前
需求不一致性的管理是复杂软件系统开发中的关键问题,此问题解决的如何直接关系到软件需求规格说明的质量,进而影响到最终获得的软件产品的质量.但是,目前虽然已经有大量的工
近几年,随着计算机网络技术的飞速发展,网络信息量剧增。为了解决在海量数据中的寻找特定信息,人们研究了P2P网络技术,并期望这个技术能够解决传统模式网络中的一些基本的问题。
流媒体以其特有的娱乐性和交互性成为推动未来宽带互联网应用的主要动力,但流媒体对带宽资源的占用率高、服务时间要求长和服务质量要求高,使得其在Internet上大规模应用面临着