面向评论文本的多文档情感摘要研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:AliceXQ
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前人们已经可以随时随地的对当前发生的新闻事件进行评论以及对网购的商品发表看法。在这些评论文本中,通常包含了评论者的情感信息,这些信息在一定程度上能反映出事件或者商品的好坏。但是这些评论文本中也存在着大量的冗余信息,真实的情感信息很难提取。为使用户免受无用信息的困扰,并解决跨领域情感分析以及主题内容抽取的问题,本文应用情感摘要技术对评论文本进行了分析、处理以及整合,并最终得到用户想要的情感摘要。本文首先对评论文本处理的关键技术进行了研究和探讨,然后利用情感词典构建方法构建出领域情感词典并对文本进行情感分析,最后将改进的情感关键句抽取算法应用到多文档的情感摘要抽取中。本文所做的工作主要包含以下三个方面:(1)提出了一种基于领域语料库的情感词典构建方法,并应用于文本情感分析评论文本通常包含主观情感,并且领域广泛,因此在进行情感摘要之前我们要正确分析出文本的情感信息。当前研究下情感词典的完善性是情感分析的基础,在充分结合其他情感词典以及领域语料库的情感的基础上,本文提出了一种基于语料库的领域情感词典构建方法。该方法首先利用已知情感倾向的领域语料库,利用评价对象抽取出该领域语料库的评价对象,然后用互信息方法计算其他基础词典中情感词与评价对象的相关性,抽取出相关性较大的词,并根据这些词语在语料库中的重要性程度,计算出这些情感词的倾向性值,最终形成一个新的情感词典。(2)研究多文档情感摘要方法,提出一种基于情感关键句抽取的多文档情感摘要方法在生成进行情感摘要之前,首先要对文本进行情感关键句的判定与分析。由于情感关键句既可以表达评论文本的主题,又可以表达出人们的主观看法,因此本文提出了改进的情感关键句抽取算法,并将其应用到多文档文本情感摘要中,提出一种基于情感关键句抽取的多文档情感摘要方法。该方法首先计算文本中句子的主题相关性和关键词属性,然后利用领域情感词典分析句子的情感属性,并分别赋予各个属性不同的权重,情感属性的权重相对较大,最后进行加权计算得到句子的分值,根据句子的分值大小应用最大边缘相关的消除冗余算法抽取出靠前的句子形成摘要。实验表明本文方法抽取出的的情感摘要与专家抽取的摘要更具相似性。(3)设计并实现了基于情感关键句抽取的多文档情感摘要原型系统在分析评论文本的多文档情感摘要抽取过程中,针对每个方面设计了相对应的功能模块,并实现了基于情感关键句抽取的多文档情感摘要原型系统。该系统可以对网络中的评论文本进行挖掘抽取、分析处理,并最终向用户提供直观的情感摘要。展示的摘要既能表达该评论方面的主题,又能把握相应的情感信息。
其他文献
近些年来,随着电视用户观看习惯的改变、观看选择的增多,电视机的开机率逐步下降,电视产业面临着用户流失的风险,尤其是年轻用户,已经越来越习惯没有电视的生活,因此有必要对
近年来,物联网受到全社会的广泛关注,其核心技术之一是射频识别(RFID,Radio Frequency Identification)。标签和阅读器天线是射频识别系统的两个关键模块。最新出现的无芯片
随着社会经济水平的不断进步和医疗信息技术的迅速发展,人们对健康问题变得越来越重视。现代社会人口老龄化加剧以及高血糖高血压等慢性病患者比例的增长,使得基于体域网的移
未来的无线网络发展中,不同的无线接入技术提供不同的覆盖范围、吞吐量和服务质量等,这些技术在性能上的互补性使得异构网络融合成为一种必然趋势。网络选择是异构网络融合环
随着无线通信的飞速发展,所需要的频谱资源越来越多,当前频谱资源已显得越来越缺乏。认知无线电提供了一种按伺机的方式共享和利用频谱的手段,可以有效地解决这一问题。NC-OF
随着当代社会信息技术的发展,对安全性的要求越来越高。生物识别技术对于提高信息的安全性具有重要作用,可广泛应用于很多领域。虹膜识别是生物特征识别的一个重要组成部分。
借鉴人类大脑认知和信息处理方式,可以大幅度提高机器对情感信息的理解能力与处理效率,人机情感交互越来越受到研究者的关注,因此对情绪认知的研究成为了一个热点。大脑在接
随着电子系统向多功能、小型化、低成本方向快速发展,人们对系统级封装(System on Package,SoP)中各类高性能小型化无源元件的需求也越来越强烈。因而,从实现工艺、结构布局