论文部分内容阅读
目前人们已经可以随时随地的对当前发生的新闻事件进行评论以及对网购的商品发表看法。在这些评论文本中,通常包含了评论者的情感信息,这些信息在一定程度上能反映出事件或者商品的好坏。但是这些评论文本中也存在着大量的冗余信息,真实的情感信息很难提取。为使用户免受无用信息的困扰,并解决跨领域情感分析以及主题内容抽取的问题,本文应用情感摘要技术对评论文本进行了分析、处理以及整合,并最终得到用户想要的情感摘要。本文首先对评论文本处理的关键技术进行了研究和探讨,然后利用情感词典构建方法构建出领域情感词典并对文本进行情感分析,最后将改进的情感关键句抽取算法应用到多文档的情感摘要抽取中。本文所做的工作主要包含以下三个方面:(1)提出了一种基于领域语料库的情感词典构建方法,并应用于文本情感分析评论文本通常包含主观情感,并且领域广泛,因此在进行情感摘要之前我们要正确分析出文本的情感信息。当前研究下情感词典的完善性是情感分析的基础,在充分结合其他情感词典以及领域语料库的情感的基础上,本文提出了一种基于语料库的领域情感词典构建方法。该方法首先利用已知情感倾向的领域语料库,利用评价对象抽取出该领域语料库的评价对象,然后用互信息方法计算其他基础词典中情感词与评价对象的相关性,抽取出相关性较大的词,并根据这些词语在语料库中的重要性程度,计算出这些情感词的倾向性值,最终形成一个新的情感词典。(2)研究多文档情感摘要方法,提出一种基于情感关键句抽取的多文档情感摘要方法在生成进行情感摘要之前,首先要对文本进行情感关键句的判定与分析。由于情感关键句既可以表达评论文本的主题,又可以表达出人们的主观看法,因此本文提出了改进的情感关键句抽取算法,并将其应用到多文档文本情感摘要中,提出一种基于情感关键句抽取的多文档情感摘要方法。该方法首先计算文本中句子的主题相关性和关键词属性,然后利用领域情感词典分析句子的情感属性,并分别赋予各个属性不同的权重,情感属性的权重相对较大,最后进行加权计算得到句子的分值,根据句子的分值大小应用最大边缘相关的消除冗余算法抽取出靠前的句子形成摘要。实验表明本文方法抽取出的的情感摘要与专家抽取的摘要更具相似性。(3)设计并实现了基于情感关键句抽取的多文档情感摘要原型系统在分析评论文本的多文档情感摘要抽取过程中,针对每个方面设计了相对应的功能模块,并实现了基于情感关键句抽取的多文档情感摘要原型系统。该系统可以对网络中的评论文本进行挖掘抽取、分析处理,并最终向用户提供直观的情感摘要。展示的摘要既能表达该评论方面的主题,又能把握相应的情感信息。