基于评论文本的情感分析研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:cassyqc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的普及与广泛应用,越来越多的人在互联网上发表自己的主观言论,使得带观点的文本呈爆炸式增长。观点信息(也称情感信息)的收集与分析对个人、商业组织、国家政府等都有重要的作用。然而,由于网络中数据规模异常庞大,且呈现出散乱、无结构化、语言不规范等特点,给信息抽取任务带来了极大挑战。因此,针对WEB的观点挖掘研究应运而生。   产品评论是指用户在购物网站或专业评论网站中发表的对某商品或服务的评价信息,它对个人用户和商业组织有很大的利用价值,是一种重要的情感信息源。为了更全面的挖掘情感文本中的关键信息并以更简洁的方式呈现出来,本文以产品评论为研究对象,研究了WEB观点挖掘中的评价搭配抽取以及篇章情感倾向性判断问题。   本文的主要工作和创新点如下:   (1)针对情感抽取问题,提出融合核心句与依存分析的评价搭配抽取方法。传统的情感抽取任务以评价对象为中心,但是单一的评价对象抽取的应用价值不大,且这种方法忽视了评价对象与评价词之间的共现关系。评价搭配的抽取弥补了这一不足,评价搭配是指评价对象与其修饰词之间的搭配,能够完整表达评论文本的关键信息。本文以评价对象与评价词之间的固有依存关系为核心提取评价搭配,针对网络文本的不规范性给依存关系分析带来的影响,提出了核心句抽取的预处理方法,针对省略评价对象的评价信息,提出了潜在评价搭配抽取规则。实验结果表明,与只使用依存关系分析的方法相比,核心句抽取以及潜在评价对象抽取提高了抽取的准确率和覆盖率。   (2)针对篇章情感倾向性判断问题,提出基于混合粒度模型的分析方法。传统的情感倾向性判断往往只关注同一粒度下的文本,如词语级、句子级。然而,网络中的评论文本规模并不平衡,有些篇章由大量长句组成,而有些仅包含少量词语,因此,基于单一粒度的篇章情感倾向性判断方法并不适用。考虑基于不同粒度文本的算法各有其优势,本文提出基于混合粒度模型的篇章情感倾向性判断算法,将基于词语级的篇章情感倾向性判断与基于句子级的篇章情感倾向性判断相结合。实验结果表明,相对于单一粒度的篇章情感倾向性判断方法,基于合混合粒度模型的篇章情感倾向性判断取得了更好的结果。
其他文献
基于内容的图像检索技术是智能化信息搜索领域研究的重点之一,同时也是图像处理和人工智能相结合的产物,其对数字化信息时代的发展,乃至人们生活方式的改变都起着积极的促进作用
篇章关系分析是自然语言处理的一个核心问题。在篇章研究领域中,篇章是指一系列连续子句、句子或语段构成的语言整体;而篇章关系是指同一篇章中,不同论元之间的语义逻辑关系(如因
随着物联网技术的发展,监控摄像头已广泛的覆盖了我们日常生活中的各个角落,视频目标跟踪技术也被应用于不同的实际监控场景。各种目标跟踪算法蓬勃发展,依据自身跟踪效果被
Mitchell指出,学习是计算机程序通过经验来提高处理某种任务性能行为的一个过程。将学习问题建立在映射空间中进行讨论也是研究机器学习的途径之一。同伦作为研究连续性问题的
无线传感器网络是集多种技术为一体的新型网络,有着广泛的应用和巨大的潜力,近年来也一直是国内外研究的热点。无线传感器网络的节点通常由电池供电,因此网络各层协议在设计时尽
3G移动通信网络作为移动通信技术的代表,能在广域范围内提供较好的漫游服务,但是它提供的数据传输速率以及网络带宽较小,费用较高。WLAN作为另一种常见的无线接入网络,能提供相对
纹理是自然界中物体表面呈现出的主要特征,是人类视觉信息的重要组成部分,对纹理的视觉感知是人类认识世界的重要方式。在研究领域,纹理作为一种图像模式的描述,是计算机视觉和模
虚拟植物是指利用计算机模拟植物在三维空间中的生长发育状况。随着计算机技术与植物学的发展,虚拟植物建模和可视化技术日益成熟,能够逼真地模拟植物生长变化及与环境的交互,并
随着信息化时代的到来,信息技术在人们的日常生活中得到了广泛应用,出现了各种信息系统,记录着用户的日常行为信息。在本文的研究内容中,从用户个人数据分析、用户间关联性度量和
图像数据的剧增是普通个人、家庭以及各组织机构共同面对的现状,对大量图像数据进行有效管理也是人们共同的需求。多数情况下,人们更愿意以语义的形式描述和管理图像数据,因此基