【摘 要】
:
微博以其即时性、原创性、便捷性的特点,成为目前最受欢迎的社交媒体之一,也逐渐成为各类突发话题的第一发布现场。然而随着微博用户人数、发帖量逐年激增,导致微博文本流中充斥着各种各样的广告以及民众对日常生活的讨论。因此如何从海量、嘈杂的微博文本流中及时发现负面情感突发话题并对其演化情况进行分析,这对于突发事件的应急响应以及相关部门做出有效的舆情引导有着重要的意义。而传统的突发话题检测方法忽略了负面情感突
论文部分内容阅读
微博以其即时性、原创性、便捷性的特点,成为目前最受欢迎的社交媒体之一,也逐渐成为各类突发话题的第一发布现场。然而随着微博用户人数、发帖量逐年激增,导致微博文本流中充斥着各种各样的广告以及民众对日常生活的讨论。因此如何从海量、嘈杂的微博文本流中及时发现负面情感突发话题并对其演化情况进行分析,这对于突发事件的应急响应以及相关部门做出有效的舆情引导有着重要的意义。而传统的突发话题检测方法忽略了负面情感突发话题与非负面情感突发话题之间的区别,并且突发话题的持续范围如何确定也存在着不足;在突发话题演化分析过程中,传统方法没有将内容信息与情感信息综合考虑,导致演化窗口划分不准确、细粒度偏大,此外微博文本中存在大量同义词,如不加处理,也会影响演化分析的效果。因此本文针对微博文本流,设计了负面情感突发话题检测方法和负面情感突发话题演化分析方法,解决了以上问题,并进行了深入的研究。本文所做工作如下:(1)提出了一种面向微博文本流的负面情感突发话题检测方法。首先将微博文本流中的负面情感强度变化率和主题词对加速度作为负面情感突发话题的判定依据;然后利用突发词对的速度确定负面情感突发话题的窗口范围;最后使用一种基于吉布斯采样的狄利克雷多项式混合模型聚类算法得到窗口中负面情感突发话题的主题结构。实验结果表明,该方法能够及时高效地发现微博文本流中的负面情感突发话题。(2)提出了一种负面情感突发话题演化分析方法。当检测出负面情感突发话题后利用同义词词表将微博文本流中的主题词进行同义合并;然后基于话题词对强度和基于话题情感强度划分突发话题演化窗口;最后利用短文本聚类算法得到每个话题演化窗口中的主题内容。实验结果显示,该方法得到的负面情感突发话题演化过程细粒度更高、更准确。(3)开发了一个负面情感突发话题检测与演化分析系统。该系统利用pyqt5图形用户界面工具以及本文提出的有关方法,实现了爬取微博文本、检测文本流中的负面情感突发话题并对其进行演化分析。
其他文献
机器阅读理解作为自然语言理解的关键任务,受到国内外学者的广泛关注。其意义在于使机器具有理解文本语义的能力。本文重点关注机器阅读理解中的多项选择题任务,即给定文章、问题和选项,要求根据文章内容回答问题,从多个选项中选择最佳选项。然而这些选项通常不是直接来自文章片段,其需要根据文章内容进行总结归纳或推理才能得出正确答案,存在更艰巨的挑战。因此,本文旨在面向高考阅读理解中的多项选择题进行研究,主要的工作
多项选择型阅读理解任务作为机器阅读理解的子任务之一,近年来受到国内外研究者的广泛关注。现有多项选择型阅读理解数据集多为英文语料,且数据集文章覆盖领域及回答问题所需推理能力单一,而高考语文中文章覆盖领域多样、问题复杂。因此,面向高考语文阅读理解的研究任务具有较大的挑战性。本文以2018年国家重点研发计划项目子课题“文本生成及复杂语言问题求解关键技术与系统”为背景,针对高考语文中现代文多项选择题展开研
目前,精神疾病的精准诊断是脑科学中最主要的研究课题。由于精神疾病(比如精神分裂症、分裂症情感障碍和双相情感障碍等)有许多重叠的临床症状,因此基于症状的主观诊断很容易导致精神疾病被误诊为其它相似的疾病从而影响疾病的治疗。利用脑影像(如脑核磁共振成像)探索精神疾病的机制和客观指标,利用数据挖掘的手段用客观影像学测度来定义精神疾病的类别是推动精神疾病精准诊断的必经之路。本论文针对这两个方面展开研究,分别
个性化推荐技术在生活中已被广泛的应用。近年来已提出的推荐算法虽然其推荐性能有了显著提升,但是模型越来越复杂,导致出现了大量的黑盒模型。然而,黑盒模型却存在可解释性差的问题,可解释性推荐是解决此问题的有效手段,其不仅可以为用户提供推荐还可以对推荐的物品做出解释,使用户了解为什么推荐此物品,增加用户的信任度和满意度,从而提高推荐系统的精准度和说服力。所以,推荐系统的可解释性问题变得尤为重要。目前,嵌入
框架关系是汉语框架网(Chinese Frame Net,CFN)中的一种重要资源,它用来描述框架与框架之间的语义关系,从语义场景角度为篇章框架语义单元之间建立关联,为篇章语义理解提供了一种框架语义特有的方式,便于计算机理解篇章语义。中文词之间的关系研究缤纷复杂且与框架关系研究存在差异,因此CFN的框架关系继承使用了Frame Net的框架关系。汉语语义丰富繁多,CFN中会存在框架间关系缺失的问题
计算机断层成像技术(Computed Tomography,CT)在医学成像中的应用十分广泛。但是扫描过程中射线对人体的辐射给病人带来了潜在的致病危险,因此低剂量CT已经成为当前研究热点。实现低剂量扫描有两种策略:一是在每个角度下采集投影时降低管电流强度,二是以稀疏采集的方式减少投影个数。策略二对应的重建方法就是CT稀疏重建。但是,如果使用传统的解析法,如滤波反投影算法,稀疏重建后的图像当中包含严
图像在传输、存储等过程中不可避免地会发生图像质量下降的问题,这对于后续的图像处理带来了巨大的挑战。通过自动判定图像质量,避免将低质量的图像引入图像处理系统中,将在很大程度上缓解或避免上述问题。因此,图像质量评价算法作为图像工程的关键环节具有重要的研究意义和应用价值。全参考图像质量评价(Full-Reference Image Quality Assessment,FR-IQA)方法作为图像质量评价
随着信息化时代的飞速发展,海量数据的有效收集和获取成为关键。数据挖掘作为当今信息时代快速发展的一个重要领域,它逐渐普及应用到各个行业。聚类分析则是处理数据挖掘问题的有效手段之一,通过对海量数据的划分,使数据样本之间潜在的联系表现出来。在聚类分析中,矩阵分解通过数据降维,将高维矩阵的问题分析转换成几个低秩矩阵的问题分析,有效的提升了聚类的效果。本文我们主要根据概念分解的相关知识,增加了函数的对偶性和
框架语义分析是基于框架语义学理论,识别目标词所属框架,并标注框架所包含的语义角色,通过刻画文本内部丰富的结构信息和语义信息,达到文本语义分析的目的。框架识别作为其核心任务之一,是给定可激起框架的目标词,根据上下文语境,选取最符合该目标词语境的语义框架。提高框架识别模型的准确性,有利于增强句子级语义分析的性能,从而为下游任务提供有效的语义信息。本文针对框架识别任务进行研究,主要的工作及成果如下:(1
中文阅读理解问答研究作为智能问答的方向之一,受到了国内众多中文信息研究者的追捧,成为了研究焦点。本文依托科技部国家重点研发项目,针对高考语文卷的科技文类型的阅读理解问答题进行研究,本文的主要研究内容如下:(1)基于BERT模型的多策略答案句抽取方法。首先构建了面向高考语文阅读理解的数据增强方法,对高考文本数据进行扩充,增加BERT模型的泛化性。其次采用改进的MMR算法对段落进行筛选,随后运用微调之