基于潜在关系的产品细粒度意见挖掘研究

来源 :南开大学 | 被引量 : 0次 | 上传用户：Lisa2005

【摘要】

：

近年来，随着电子商务的快速发展，数以亿计的消费者在互联网上发表了海量的产品评价，因此，面向产品评价的意见挖掘研究成为研究热点之一。由于评价中可能提及产品的多个方面，基于篇

【作者】

：

陈季梦

【机构】

：

南开大学

【出处】

：

南开大学

【发表日期】

：

2015年期

【关键词】

：

产品细粒度意见挖掘聚类分析信息抽取识别模型

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来，随着电子商务的快速发展，数以亿计的消费者在互联网上发表了海量的产品评价，因此，面向产品评价的意见挖掘研究成为研究热点之一。由于评价中可能提及产品的多个方面，基于篇章和句子级别的传统粗粒度意见挖掘不再适用，因此，词语级别的细粒度意见挖掘研究逐渐兴起。对产品评价进行细粒度意见挖掘，不仅能为消费者提供准确的决策支持，还可以帮助生产商对产品和服务进行精准改进，具有重要的研究意义与实用价值。本文针对产品细粒度意见挖掘的以下三个关键技术问题展开研究。　　首先，提出基于潜在状态序列模型的意见要素识别模型，识别评价对象和评价词。细粒度意见主要由评价对象和评价词这两个要素组成。意见的这两种要素存在多种特性，如语义特性、情感特性、序列特性、语境特性和关系特性，导致意见要素描述复杂，这要求意见要素识别模型具有较强的识别能力。而且，意见要素数量巨大，一件产品就存在成千上万的评价，而一条评价又提及产品的多个方面，这给快速识别意见要素提出了挑战。同时，随着产品的更新换代，意见要素更新速度快，这要求意见要素识别模型具有较强的更新能力和鲁棒性。传统的意见要素识别方法主要基于词典规则和机器学习，前者更新速度较慢，后者，如目前最优的条件随机场模型仅考虑了序列特性，而未考虑其他特性。因此本文综合考虑到意见要素的多种特性、识别速度和模型鲁棒性因素，在条件随机场模型的基础上引入表示意见要素特性的潜在状态，提出基于潜在状态序列模型来同时识别评价对象和评价词。在公开数据集和应用数据集上的实验表明，该方法可以快速有效地同时识别评价对象和评价词。　　其次，在意见要素的识别基础上，提出基于潜在关系的细粒度意见二元组抽取模型，考虑隐式意见要素来抽取<评价对象，评价词>。由于评价文本中未明确提及意见要素，或意见要素识别模型的识别误差因素，导致细粒度意见二元组抽取不全。在细粒度意见二元组中缺失的意见要素被称为隐式意见要素，反之则称为显式意见要素。传统方法通常利用评价对象和评价词在所有评价中的共现关系将隐式意见要素映射到显式意见要素上，但是当评价文本中未抽取到评价对象和评价词的共现关系时，该方法将失效。与此同时，词之间的语义关系不依赖于两词的共现关系而存在。因此，本文在引入意见要素之间的共现关系的同时，引入意见要素之间的潜在语义关系，提出基于潜在关系的细粒度意见二元组抽取模型，抽取细粒度意见二元组<评价对象，评价词>。实验表明，利用该方法不仅可以从评价文本中挖掘隐式意见要素，还可以将细粒度意见二元组中模糊的意见要素映射成语义清晰的意见要素。　　最后，在意见要素的潜在关系基础上，提出基于结构相似度的细粒度意见聚类算法。细粒度意见数量巨大，浏览者无法根据海量的细粒度意见直观得出产品的主要特色。且细粒度意见要素存在大量同义词，评论者常使用不同的词或短语来形容相同的内容，这使得浏览者总是阅读冗余信息。传统细粒度意见挖掘研究中，常用细粒度意见摘要来挑选具有代表性的评价对象，并汇总其情感倾向来描述产品意见。然而大多算法致力于研究情感分析的研究，忽略了意见要素同义词的问题。因此，本文综合考虑细粒度意见要素存在评价对象和评价词两种类型，根据细粒度意见要素之间的潜在关系，构建意见要素关系网络，通过意见要素的相邻网络结构，提出基于结构相似度的产品细粒度意见聚类算法，将描述产品同一方面的意见要素聚集起来，挑选其中的核心细粒度意见二元组作为产品意见。实验表明，利用该方法可有效地对细粒度意见进行聚类，且每个簇内的意见要素都具有语义相关性。　　综上所述，本文提出基于潜在关系的产品细粒度意见挖掘方法，在公开数据集和应用数据集上的实验表明，本文提出的方法能够比当前主流的细粒度意见挖掘算法取得更好的性能。进一步地，本文将所提方法应用于真实的产品意见分析系统中，对具体化产品特性，改善用户体验具有很大作用。本文提出的方法除了应用于产品意见挖掘领域之外，还在数据挖掘、信息抽取、文本分类聚类等领域具有广泛的应用前景。

其他文献

AJAX技术在门户系统中的应用及安全性研究

随着企业信息化的发展，门户系统在许多企事业单位的信息系统建设中得到了成功应用。门户系统可以向用户提供单点登录，个性化设置和内容整合等功能，使用户能在门户系统中方便地获

学位

AJAX技术AJAX技术门户系统门户系统访问安全性访问安全性权限控制权限控制数据保密性数据保密性单点登录单点登录企业信息化企业信息化

软件过程支撑环境SPEFE的设计与改进

软件过程工程包括过程建模、过程分析、过程例化、过程运作、过程度量和过程评估与改进。软件过程支撑环境是支持软件过程技术的集成环境，涉及过程模型定义、模型验证与分析、

学位

软件过程

面向运营商的业务健康度评估研究

运营商的营业厅每月都会办理大量的业务，这些业务中大部分是按照规定办理的正常业务，但是还有一小部分是异常业务，这些业务可能是有意或无意地没有按照业务规定办理的，有可能给公

学位

电信企业业务监管体系健康度评估抽检行为

数字化校园的规划设计与研究

数字化校园是利用计算机技术、网络通讯技术对学校的教学、科研、管理和生活服务等所有信息资源进行全面的数字化，并科学规范地对这些信息资源进行整合和集成，以构成统一的用户

学位

数字化校

基于.NET的网格计算框架设计与实现

本文在对于当前两大企业应用平台J2EE和．NET的分析基础上，选择了基于Windows的．NET平台为基础，设计了一种基于．NET的网格计算框架Enterprise Grid Computing Framework(以下简称EG

学位

网格计算网格计算编程环境编程环境资源共享资源共享

基于二阶结构特征学习的图像分类

随着互联网和多媒体技术的快速发展，图像数据不仅在人类的日常生活中以惊人的速度不断增长，并且在当前信息化社会的诸多领域中发挥重要作用。面对海量的图像数据，如何有效地组织

学位

多媒体网络图像编码二阶汇合黎曼流形

基于Internet/Intranet的工业控制组态软件的设计与实现

随着工业自动化水平的迅速提高，计算机在工业领域的广泛应用，人们对工业自动化的要求越来越高，种类繁多的控制设备和过程监控装置在工业领域的应用，使组态软件的发展有着光明的前

学位

实时数据库实时数据库设备驱动程序设备驱动程序组态软件组态软件软件设计软件设计工业自动化工业自动化

基于领域本体的软件需求不一致性管理

需求不一致性的管理是复杂软件系统开发中的关键问题,此问题解决的如何直接关系到软件需求规格说明的质量,进而影响到最终获得的软件产品的质量.但是,目前虽然已经有大量的工

学位

需求不一致性需求一致性模式模型检测状态变迁系统软件开发

基于Cayley图的P2P网络设计及其算法研究

近几年，随着计算机网络技术的飞速发展，网络信息量剧增。为了解决在海量数据中的寻找特定信息，人们研究了P2P网络技术，并期望这个技术能够解决传统模式网络中的一些基本的问题。

学位

P2P网络P2P网络DHTDHTCANCANCycloidCycloid资源定位资源定位Cayley图Cayley图拓扑结构拓扑结构

P2P流媒体传输与缓冲技术研究

流媒体以其特有的娱乐性和交互性成为推动未来宽带互联网应用的主要动力，但流媒体对带宽资源的占用率高、服务时间要求长和服务质量要求高，使得其在Internet上大规模应用面临着

学位

P2P流媒体P2P流媒体结点选择结点选择媒体数据分配媒体数据分配缓冲缓冲宽带互联网宽带互联网单点失效单点失效

基于潜在关系的产品细粒度意见挖掘研究

与本文相关的学术论文