产品在线评论方面级(Aspect-based)观点挖掘技术研究

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:silent_control
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web上社会媒体的迅猛增长激起了人们研究在线评论观点挖掘技术的极大兴趣。由于篇章级情感分类不能准确反映人们到底喜欢或不喜欢被评价实体的哪些方面,所以迫切需要能够更详细地了解被评价实体多方面的评价信息。Aspect-based观点挖掘正是在这样的背景下应运而生。  Aspect-based观点挖掘的目标是将无结构化的文本转化为结构化的评价摘要。为了实现这个目标,观点挖掘过程中必须抽取被评价实体的各个方面以及与之相关的情感,并针对被评价实体的各个方面进行方面情感分类。  为了实现评论中被评价实体的方面和与之对应的情感的抽取,本文采用了无监督学习的主题模型。在分析构建主题模型所需相关要素的基础上,根据模型参数学习对象的不同,从两种不同视角分别研究了基于篇章级参数学习的主题模型TMDP和基于短语级参数学习的主题模型TMPP。  TMDP模型通过引入滑动窗口技术实现了局部主题的抽取;通过为每一局部主题关联一个情感分类器实现局部主题到方面的映射;通过最大熵模型设置参数τ,将词与表示该词词汇特征和词性特征的向量相联系,支持方面与情感的分离,解决了主题模型难以识别评论中的局部主题,难以识别方面与情感分离的难题。为此,TMDP模型设计了基于collapsed吉布斯抽样的主题参数估计算法Gibbs-TE,基于情感预测的主题-方面映射算法TAMSP和基于collapsed吉布斯抽样的方面-情感分离参数估计算法Gibbs-ASS。针对TMDP模型的主题识别,实验中分析了:1)特征选择方法对情感分类器性能的影响;2)识别的主题与热点词分析;3)TMDP与监督学习方法的比较;4)局部主题映射到方面的效果分析。结果表明:以UBT作为候选特征集,基于频率的费希尔特征选择方法,特征维度为1000时情感分类器性能最优;发现的主题能与方面正确的关联;尽管方面之间存在一定的关联关系,通过分析局部主题的数量对方面抽取的影响可知,局部主题小于4的情况下能识别合适的主题;监督学习的最大熵模型获取与三个方面(服务、位置和房间)相关文本的平均正确率优于TMDP模型,但差距位于5.9%与8.9%之间;多粒度(全局主题/局部主题)主题模型TMDP的排序损失最低,分别为0.701和0.659。针对TMDP模型的观点识别,实验中分析了:1)观点词识别的性能;2)观点词与方面词之间关联的评估;3)词汇/词性特征对方面与情感分离的影响;4)标签数据大小对方面与情感分离的影响;5)不同领域数据集对方面与情感分离的影响。结果表明:TMDP模型能识别与不同方面有较强联系的有意义的观点词。  TMDP模型的特点是:一方面,它把评论中的所有词作为学习对象;另一方面,它没有在方面识别的同时为用户提供方面的评价等级。基于此,研究了TMPP模型。TMPP模型要求用户首先对评论进行预处理,把评论表示为观点短语的集合,然后模型把观点短语集作为学习对象。TMPP模型的主要功能是从评论中抽取潜在方面和其对应的潜在情感等级。文中研究了三种TMPP模型:AR-PLSI,AR-LDA和ARI。引入模型AR-PLSI和AR-LDA的目的在于通过模型演化的方式,体现ARI模型能捕获方面与其等级之间的相互依赖关系,方面之间的潜在语义的联系。为了实现ARI模型的功能,分别设计了基于变分推理的后验分布近似算法ARI-VI和基于EM的参数估计算法ARI-EM。以聚类相似度作为度量标准,对三种TMPP模型进行了方面识别和等级预测的分析。实验结果表明:模型化的方面之间的关系,方面与其等级之间的相互依赖关系有利于方面识别和等级预测。以困惑度作为模型适应性能的度量标准,对三种TMPP模型进行了分析,实验结果表明:ARI能真实模拟主观性文本的生成过程,即:选择的方面存在关系,方面与情感存在依赖关系。  为了减少观点的丢失,提高观点挖掘的准确性,进一步研究了观点挖掘中的指代消解。首先,研究了与观点相关的两个新特征OPC与E/AOWA,并利用支持向量机验证了在观点挖掘环境下,增加这两个新特征后的指代消解性能优于已存在的决策树方法和中心理论方法。然后,提出了融合APF的约束化局部训练方法应用于序列模型CRF进行指代消解,实验结果表明:将约束化局部训练与优化方法APF结合起来应用于指代消解优于传统的分类方法。  最后,本文还基于生成的产品属性评价摘要,研究如何采用协同过滤推荐法为用户对产品的情感满意度进行排序,研究如何采用灰色理论中的评估法对产品的用户满意度进行综合评价。该研究能实现反馈的决策支持过程,能分析用户满意度,进一步丰富完善观点挖掘的理论框架,能为用户个体提供消费指导。
其他文献
脑电波(EEG)是诊断大脑疾病,检测大脑功能和分析大脑活动的一个重要工具。电子计算机的出现为EEG分析技术提供了一些新的有效手段,但是由于EEG信号强烈的非平稳、非线性特性,传
随着互联网络的迅猛发展,人们对网络存储的需求越来越大。但是现有的文件系统在存储小文件时,存在浪费空间、性能低下等缺陷。它们已经不能很好地满足日益增长的集中而又分布
网络可视化方法能够帮助人们快速、直观地从大规模数据集中发现隐藏的知识和规律,并在实践中得到了广泛的应用。现有的网络可视化方法中,大多数可视化布局方法仅考虑网络中无向
基于lucene搭建起来的企业搜索引擎,搜索出来的文档是根据查询词的相关度来进行排序。但如果将这个搜索引擎用到企业内部,这并不完全符合用户的需求,因为权限是企业的一个主要特
硬盘以其巨大的存储潜力,在存储领域占有不可替代的地位。随着时代的发展,人们对硬盘的存储密度和传输速率的要求越来越高,然而,这些性能的提高在很大程度上受到读写通道的影
无线Ad hoc网络在近年来受到越来越多的关注。有许多Ad hoc网络的路由选择协议被提出,其中,卡耐基梅隆大学提出的动态源路由(DSR,Dynamic Source Routing)协议被证明具有相对
在各类网络应用中,为了实现有效的访问控制和安全通信,身份认证正在起着重要的作用。运用公钥基础设施PKI(Public Key Infrastructure)技术,针对一类特定应用中使用的即时通
生物免疫系统是一个自适应、自学习、自组织、并行处理和分布协调的复杂系统。人工免疫系统的研究旨在抽取生物免疫系统中独特的信息处理机制,研究和设计相应的模型和算法,进
随着越来越多的对大规模存储的要求,国际上正在研究全新的存储架构和新型文件系统,希望能有效结合存储区域网(SAN)和附网存储(NAS)系统的优点,支持直接访问磁盘以提高性能,通
无线传感器网络综合了传感器技术、嵌入式计算技术、现代网络技术、无线通信技术及分布式信息处理技术,是备受关注的新兴前沿研究热点。相对于传统的计算设备,无线传感器网络