面向新闻领域的情感分析系统的设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:xiaohuang1234
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的飞速发展,特别是Web2.0的兴起和发展,用户生成内容(UGC)越来越丰富。用户生成内容含有大量的情感信息,这使得传统的以关键字为检索手段的信息获取技术日益不能满足人们的对信息的需求。对这些用户生成内容进行挖掘和分析,识别出其所针对的对象以及情感倾向,可以更好的理解用户的消费习惯,分析互联网上的热点舆情,为企业,政府机关等做决策提供重要数据支持。   面向新闻领域的情感分析就是分析用户针对具体新闻事件所撰写的评论的情感因素,找出网上的热点事件以及对应的舆情,并给出相关的情感摘要来为政府决策提供依据。然而当前情感分析研究主要集中在针对产品的情感分析,很少有针对新闻领域的情感分析研究。由于新闻领域的话题发散,评论针对对象不固定等特征使得现有方法很难直接利用。因此本文基于的面向新闻领域的情感分析系统,针对新闻评论的主要特点,提出了利用新闻话题作为背景,以评论的情感特征扩充为基础的新闻评论的情感特征提取方法和对新闻评论采用层次结构进行情感倾向性分析的方法。其主要创新点在于:   1.基于同位词的情感特征提取方法:利用新闻内容和评论的差异获取评论的情感特征,使用同位词对新闻评论的情感特征进行扩充和验证,解决新闻情感分析中因为标注数据不足导致的召回率过低的问题。   2.基于话题背景的情感特征提取方法:对新闻进行聚类得到新闻话题,利用新闻话题作为背景知识,通过改善热点话题的情感特征提取效果来改善整体的新闻评论的情感特征提取效果。   3.基于CRF模型改善情感倾向性分析的方法:使用CRF模型来描述评论中各分句的关系以及否定词对分句情感分析的影响,并在此基础上采用贝叶斯模型进行情感分析,使新闻评论的情感分析准确率有明显的提高。   实验证明,上述的新闻评论的情感特征提取方法极大的提高了新闻评论的情感分析的召回率。此外,本文提出的情感倾向性分析方法有效的提高了新闻评论的情感分析的准确率。  
其他文献
在印刷过程中,印刷品质量的好坏取决于与预先设计的印刷图案是否一致。在基于机器视觉的印刷品质量检测方法中,先由相机等设备将印刷品拍摄并传输到计算机中,再由计算机对印
目前RFID技术及应用已成为国内外研究热点。但绝大多数RFID应用仍是闭环应用,其关键原因在于,缺乏一套可靠高效的RFID公共服务基础设施和信息共享机制。RFID编码解析服务是核
随着视频编码技术的不断深入,传统编码技术更多地和诸如心理学和认知学等领域的知识结合起来,以便得到更好的视觉效果。近年来,随着生物学、心理学的发展,关于视觉显著度的研
随着信息技术的不断发展,数字图书馆慢慢成为人们获取信息和知识的重要途径。数字图书馆能提供的信息和知识的载体也由最初的简单的文本,发展到现在多种多样的音频、视频、图
现代处理器中转换旁视缓冲(Translation Look-aside Buffer,TLB)通常由相联存储器实现,对相联存储器的访问会造成较大的功耗开销,并且需要较长的延迟。32位处理器向64位处理器的升
学位
粒子群优化(PSO)算法是继蚁群算法之后提出的一种新型的优化技术,其基本思想来源于对鸟群捕食的行为模拟。该算法的优势在于算法简单,容易实现而且功能强大,具有深刻的智能背
大亚湾反应堆中微子实验是中美两国目前在基础科学研究领域最大的合作项目之一,其主要目标是利用大亚湾和岭澳核反应堆产生的反中微子来测定一个具有重大物理意义的参数--中
城市是一个有生命的系统,它的各种基础设施及功能由生活在其中的人们所定义,并随着城市人群的行为特征变化而演进。对城市人群的移动性特征进行可视化、刻画分析及比较一直是城
用户是网络的主体,用户行为是互联网安全问题的主要来源,而目前大多数网络管理系统对网络用户可知可控粒度不够,应用系统之间缺乏对用户信息和行为的有效共享。因此,很有必要
模型格式标准是计算机图形学的重要课题,在CAD/CAE/CAM领域都有非常重要的作用。模型文件质量直接影响到产品的质量和工作效率。高质量的模型文件应该能够准确地表达设计者的