论文部分内容阅读
随着信息技术的飞速发展,特别是Web2.0的兴起和发展,用户生成内容(UGC)越来越丰富。用户生成内容含有大量的情感信息,这使得传统的以关键字为检索手段的信息获取技术日益不能满足人们的对信息的需求。对这些用户生成内容进行挖掘和分析,识别出其所针对的对象以及情感倾向,可以更好的理解用户的消费习惯,分析互联网上的热点舆情,为企业,政府机关等做决策提供重要数据支持。
面向新闻领域的情感分析就是分析用户针对具体新闻事件所撰写的评论的情感因素,找出网上的热点事件以及对应的舆情,并给出相关的情感摘要来为政府决策提供依据。然而当前情感分析研究主要集中在针对产品的情感分析,很少有针对新闻领域的情感分析研究。由于新闻领域的话题发散,评论针对对象不固定等特征使得现有方法很难直接利用。因此本文基于的面向新闻领域的情感分析系统,针对新闻评论的主要特点,提出了利用新闻话题作为背景,以评论的情感特征扩充为基础的新闻评论的情感特征提取方法和对新闻评论采用层次结构进行情感倾向性分析的方法。其主要创新点在于:
1.基于同位词的情感特征提取方法:利用新闻内容和评论的差异获取评论的情感特征,使用同位词对新闻评论的情感特征进行扩充和验证,解决新闻情感分析中因为标注数据不足导致的召回率过低的问题。
2.基于话题背景的情感特征提取方法:对新闻进行聚类得到新闻话题,利用新闻话题作为背景知识,通过改善热点话题的情感特征提取效果来改善整体的新闻评论的情感特征提取效果。
3.基于CRF模型改善情感倾向性分析的方法:使用CRF模型来描述评论中各分句的关系以及否定词对分句情感分析的影响,并在此基础上采用贝叶斯模型进行情感分析,使新闻评论的情感分析准确率有明显的提高。
实验证明,上述的新闻评论的情感特征提取方法极大的提高了新闻评论的情感分析的召回率。此外,本文提出的情感倾向性分析方法有效的提高了新闻评论的情感分析的准确率。