论文部分内容阅读
互联网中包含大量关于社会事件、热点人物及电商产品等的评论信息。它们其有重要的应用价值,既可以为政府舆情服务,也可以为商家和消费者等大众使用。但互联网中的信息量正以指数级的速度增长,仅靠人工阅读来获取有价值的信息是一个十分费时费力的过程。因此迫切需要一种有效的手段,能够对海量数据进行深入的整理、分析与提炼,从而给用户提供直接可用的、准确全面的信息。Web信息观点挖掘技术正是在这样的背景下应运而生,它己成为当前数据挖掘和自然语言处理领域的研究热点。本文旨在研究面向中文产品评论的观点挖掘技术,主要包括产品评价特征抽取和情感词语识别。首先利用丰题模型从评论文本中抽取产品的评价特征及其层次关系;然后将情感词语区分为通用情感词语和语境情感词语,分别利用基于词语释义和关联规则的方法进行识别;最后根据产品特征对评价结果进行统计,并以层次结构的形式展示给用户。论文丰要的研究工作及创新之处包括以下几个方面:一、提出了一个评论-主题模型(Review-Topic Model, RTM),根据其分布结果抽取评价特征及其层次关系。RTM模型在LDA的基础上增加了一个评价指标层,将文档表示为评价指标上的概率分布、评价指标为主题上的概率分布、主题为词语空间上的概率分布。其基本思想是利用评论网站中的评价指标来指导文本中词语的生成过程,以提高主题挖掘的效果。RTM模型会将语义相关的评价特征分配到同一个主题中,达到特征聚类的效果;并且还可以利用模型的评价指标-丰题分布结果得到评价指标、丰题和特征词群之间的层次结构关系。实验结果表明,利用RTM模型除了可以得到评价特征间的层次关系之外,其评价特征抽取的准确率、召回率和F值比LDA模型分别提高了8.6%、3%、7%左右。二、在丰题模型中加入词语分布的先验知识可以提高其性能,本文研究了如何在RTM中融入先验知识,提出了一个基于Dirichlet Forest分布的评论-主题模型(RTM-DF)。该模型将主题在词语空间上的先验分布扩展为Dirichlet Forest分布,能够将词语之间的语义关系有机地融合进来。本文首先计算词语之间的语义相关度,在此基础上对词语的分布加以限制生成Must-Link和Cannot-Link集合;然后对这些限制关系进行表示得到Dirichlet Forest;再利用RTM-DF模型为每个主题分配Dirichlet Tree,并根据树结构产生其在词语空间上的先验概率。实验结果表明,加入先验知识之后,在召回率基本不变的情况下,评价特征抽取的准确率和F值分别提高了5%、3.7%。三、提出了一种基于规则与共现概率的专有名词识别方法。首先对文本进行分词、词性标注,根据词性组合规则抽取候选名词短语;然后利用共现概率对候选名词短语进行过滤,实现专有名词短语的识别。四、提出了一种基于词语释义的通用情感词语识别方法。首先根据现有情感词典资源构建候选情感词表,然后基于多特征线性融合的方法计算词语在《现代汉语词典》中所有释义的情感色彩;再利用多次循环的策略从情感词表中识别出通用情感词语,构建一个适用于任何领域的通用情感词典。五、提出了一种基于关联规则的语境情感搭配词组挖掘方法。首先利用关联规则技术从特定领域的语料中挖掘出与语境情感词具有搭配关系的常用词语组合;然后根据搭配词组的上下文信息对其倾向性进行分析,进而构建领域相关的情感词语搭配集合。最后将通用情感词语与语境情感词语结合起来在文本倾向性分析会议(COAE2011)的语料集上了进行了测试,实验结果表明情感词语识别的效果有了明显的提高。