新闻文本的读者情绪自动预测方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:a4951660
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web2.0技术的快速发展,使得网络成为一个公共的信息编辑和发布的平台,让每个人可以分享自己的观点、心情,其中也包含了大量的个人意见、情绪和情绪反馈。识别和度量基于时间序列以及主题的大规模网络人群情绪及其变化在社会学研究和经济学研究中都有着重要意义。本课题研究集中在读者角度的情绪反馈预测。也就是通过对新闻文本中的词语或语义进行分析,来预测读者阅读完这段文本后可能产生的情绪。目前的文本情绪研究大多是从作者角度出发,而较少从读者预测角度进行研究。已有的读者情绪预测研究往往把情绪预测问题看成是一个单标签问题,认为一篇新闻文本只会让读者产生一种情绪,这明显与人类直觉和对读者情绪进行大规模统计得到的结果不符。另外,这些工作大多是采用基于词袋的方法,而心理学研究显示,读者情绪不仅会与文本中的一些特定的词语有关,很多时候,还与文中表达的事件主题相关。为此,本课题对网络环境下读者情绪预测进行了系统化的研究,首先,在对读者情绪生成机制进行分析的基础上,利用大规模的社会化标注数据,构建读者情绪语料库。通过对读者情绪标注进行观察发现,一篇新闻文本常常对应着多个具有统计显著性的读者情绪投票,因此将情绪预测问题视为一个多标签分类任务较为合理。同时对文本和读者情绪反馈进行观察可以发现,相似事件的新闻文本往往会导致相同的情绪,也就意味着读者情绪与文本主题具有一定的相关性。因此,课题分别研究了基于词袋模型和基于LDA(Latent Dirichlet Allocation)主题模型的方法进行读者情绪预测,并在此基础上,对主题模型进行改进,包括带权重的LDA模型以及引入情绪类别信息的分块LDA模型,以改进传统LDA模型的性能。本课题在8,802篇新闻文本上的预测实验结果表明:一、在研究读者情绪反馈问题上,采用多标签分类技术比单标签分类技术更合理;二、对于基于词袋模型的方法,通过采用不同的分类算法和特征集进行组合,可以获得较好的效果;三、采用主题模型进行情绪预测,进一步提高了新闻文本的情绪预测精度,同时课题中改进的主题模型的实验结果超过已有的一些方法,最高精度达到了0.89。此外,本课题研究中建立的读者情绪语料库也可以作为各种情绪研究的重要公共资源,支持相关领域的研究。
其他文献
自2007年云计算诞生至今,它已经逐渐成为国内外IT界热门的概念,得到了广泛的关注。在当今互联网高速发达的环境中,面对数据量的急剧增长,如何快速有效的对海量数据进行存储和计算
现今社会,伴随着信息技术与经济的快速发展,在图像处理与信息数据自动采集技术方面,图像识别技术与二维码技术获得了广泛的应用,因此,在当前针对这两方面技术的研究已经成为比较热
数字图像作为有效的信息媒介,已经被广泛应用在安全监控、科学研究、新闻和医疗等领域。但伴随各类功能强大、简单易操作的图像编辑软件的出现,数字化的图像信息面临着相当大的
信息检索作为互联网应用的重要组成部分,与人们的日常生活密不可分;而作为文本形式的web应用仍然是互联网的主流应用。如何从大量的Web文本中更加有效的检索信息,依然是许多科研
随着互联网的发展,网络安全备受人们的关注。现在的病毒木马不再单纯的以炫耀技术,破坏用户系统为目的,更多的是潜行在系统中收集数据、窃取用户私密信息以牟取钱财。为了能够长
随着互联网的发展,基于Web的eMTM (electronic Made to Measure)系统应时而生。它克服了传统eMTM系统在时间和地域上的限制,使用户可以随时随地的使用量身定制服装的服务,更
随着社交网络的规模逐渐扩大,用户量和信息量呈爆炸式增长,微博的发展则是一个很好的例证。然而,随着数据量的增大,用户要在海量信息中找到感兴趣的目标则变得越来越困难。因此,微
随着信息技术的不断发展,高校信息系统不断完善,高校教学管理越来越离不开互联网,使得教育领域的数据不断增多,大数据技术也逐渐被应用到教育领域,但传统教学管理模式多采用调查问
视频目标跟踪是计算机视觉领域的一个重要分支,它广泛地应用在军事制导、交通监控、医学诊断等多个领域,是当今热门的研究课题之一。本文以粒子滤波方法为跟踪框架,从框架本身和
随着信息化社会网络应用需求日益增长,如何实现网络的安全、有效及稳定运行是网络管理面临的重大问题。监测网络运行的实时状态作为网络管理的必要前提基础,对网络的正常运行