论文部分内容阅读
Web上社会媒体的迅猛增长激起了人们研究在线评论观点挖掘技术的极大兴趣。由于篇章级情感分类不能准确反映人们到底喜欢或不喜欢被评价实体的哪些方面,所以迫切需要能够更详细地了解被评价实体多方面的评价信息。Aspect-based观点挖掘正是在这样的背景下应运而生。 Aspect-based观点挖掘的目标是将无结构化的文本转化为结构化的评价摘要。为了实现这个目标,观点挖掘过程中必须抽取被评价实体的各个方面以及与之相关的情感,并针对被评价实体的各个方面进行方面情感分类。 为了实现评论中被评价实体的方面和与之对应的情感的抽取,本文采用了无监督学习的主题模型。在分析构建主题模型所需相关要素的基础上,根据模型参数学习对象的不同,从两种不同视角分别研究了基于篇章级参数学习的主题模型TMDP和基于短语级参数学习的主题模型TMPP。 TMDP模型通过引入滑动窗口技术实现了局部主题的抽取;通过为每一局部主题关联一个情感分类器实现局部主题到方面的映射;通过最大熵模型设置参数τ,将词与表示该词词汇特征和词性特征的向量相联系,支持方面与情感的分离,解决了主题模型难以识别评论中的局部主题,难以识别方面与情感分离的难题。为此,TMDP模型设计了基于collapsed吉布斯抽样的主题参数估计算法Gibbs-TE,基于情感预测的主题-方面映射算法TAMSP和基于collapsed吉布斯抽样的方面-情感分离参数估计算法Gibbs-ASS。针对TMDP模型的主题识别,实验中分析了:1)特征选择方法对情感分类器性能的影响;2)识别的主题与热点词分析;3)TMDP与监督学习方法的比较;4)局部主题映射到方面的效果分析。结果表明:以UBT作为候选特征集,基于频率的费希尔特征选择方法,特征维度为1000时情感分类器性能最优;发现的主题能与方面正确的关联;尽管方面之间存在一定的关联关系,通过分析局部主题的数量对方面抽取的影响可知,局部主题小于4的情况下能识别合适的主题;监督学习的最大熵模型获取与三个方面(服务、位置和房间)相关文本的平均正确率优于TMDP模型,但差距位于5.9%与8.9%之间;多粒度(全局主题/局部主题)主题模型TMDP的排序损失最低,分别为0.701和0.659。针对TMDP模型的观点识别,实验中分析了:1)观点词识别的性能;2)观点词与方面词之间关联的评估;3)词汇/词性特征对方面与情感分离的影响;4)标签数据大小对方面与情感分离的影响;5)不同领域数据集对方面与情感分离的影响。结果表明:TMDP模型能识别与不同方面有较强联系的有意义的观点词。 TMDP模型的特点是:一方面,它把评论中的所有词作为学习对象;另一方面,它没有在方面识别的同时为用户提供方面的评价等级。基于此,研究了TMPP模型。TMPP模型要求用户首先对评论进行预处理,把评论表示为观点短语的集合,然后模型把观点短语集作为学习对象。TMPP模型的主要功能是从评论中抽取潜在方面和其对应的潜在情感等级。文中研究了三种TMPP模型:AR-PLSI,AR-LDA和ARI。引入模型AR-PLSI和AR-LDA的目的在于通过模型演化的方式,体现ARI模型能捕获方面与其等级之间的相互依赖关系,方面之间的潜在语义的联系。为了实现ARI模型的功能,分别设计了基于变分推理的后验分布近似算法ARI-VI和基于EM的参数估计算法ARI-EM。以聚类相似度作为度量标准,对三种TMPP模型进行了方面识别和等级预测的分析。实验结果表明:模型化的方面之间的关系,方面与其等级之间的相互依赖关系有利于方面识别和等级预测。以困惑度作为模型适应性能的度量标准,对三种TMPP模型进行了分析,实验结果表明:ARI能真实模拟主观性文本的生成过程,即:选择的方面存在关系,方面与情感存在依赖关系。 为了减少观点的丢失,提高观点挖掘的准确性,进一步研究了观点挖掘中的指代消解。首先,研究了与观点相关的两个新特征OPC与E/AOWA,并利用支持向量机验证了在观点挖掘环境下,增加这两个新特征后的指代消解性能优于已存在的决策树方法和中心理论方法。然后,提出了融合APF的约束化局部训练方法应用于序列模型CRF进行指代消解,实验结果表明:将约束化局部训练与优化方法APF结合起来应用于指代消解优于传统的分类方法。 最后,本文还基于生成的产品属性评价摘要,研究如何采用协同过滤推荐法为用户对产品的情感满意度进行排序,研究如何采用灰色理论中的评估法对产品的用户满意度进行综合评价。该研究能实现反馈的决策支持过程,能分析用户满意度,进一步丰富完善观点挖掘的理论框架,能为用户个体提供消费指导。