论文部分内容阅读
随着Web2.0的发展和电子商务的兴起,越来越多的用户在博客及论坛上自由地表达着对各种产品和服务的观点。由此导致互联网上产生了大量用户评论信息,面对这些评论信息,一方面,用户需要从中找到适合自己的内容指导自己的消费行为;另一方面,产品和服务提供商也需要通过分析用户的意见和评论来发现消费者的需求,进而改进产品和服务,谋求更大的商业利益。然而,仅靠人工的方法来收集和处理海量的信息已经变得十分困难,因此,需要研究快速获取和处理评价信息的先进技术。在线评论通常会涉及到特定的对象,本文重点研究基于汽车评论文本的对象情感分类问题。主要研究内容如下:(1)评论数据库建立及模型构建本文首先获取包含对象名的相关评论文本,并对评论文本进行分析和整理,建立评论文本数据库。基于概率图模型的理论知识,针对“对象→主题情感”这一文本生成过程,构建了对象-主题情感联合模型(Object and Topic Sentiment Unification model, OTSU model)。此外,对应“对象→情感→主题”这一文本生成过程,构建了无监督的对象情感联合模型(Unsupervised Object and Sentiment Unification model, UOSU model).(2)基于OTSU模型的文本对象情感分类OTSU模型对文本中每个词同时采样对象和主题情感标签,最终得到各对象、主题情感下的词序列以及文本的对象分布和主题情感分布,并可以通过主题情感分布得到文本对象的情感倾向。本文首先基于OTSU模型,分别针对单对象文本和多对象文本进行对象情感分类。为了验证模型的有效性,在真实的汽车评论文本数据集上进行实验。实验结果表明,OTSU模型能够提取出一致且正负情感区分明确的主题情感词,并在单对象文本和多对象文本对象情感分类中精确率、召回率、F值分别达到了70.63%、70.78%、70.57%和70.94%、71.09%、70.89%。OTSU模型同时提取出了文本涉及的对象及相应的情感倾向,将有利于人们对相关数据的分析与应用。(3)基于UOSU模型的文本对象情感分类UOSU模型对文本中每个词同时采样对象、情感和主题标签,最终得到各对象、情感、主题下的词序列以及文本的对象情感分布,与OTSU模型不同,UOSU模型通过情感分布得到文本对象的情感倾向。对于UOSU模型,同样针对单对象文本和多对象文本进行对象情感分类。在汽车评论数据集上进行的实验表明,UOSU模型提取出了一致且正负情感区分明确的主题词,并在单对象文本和多对象文本对象情感分类中精确率、召回率、F值分别达到了74.19%、73.97%、74.06%和73.53%、73.50%、72.97%。