面向舆情文本的深度聚类算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:qncypt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
舆情是社会民意的集中反映。网络舆情来源广泛,传播速度快,且海量多样。为了帮助政府机构、社会媒体能够在海量舆情文本中更有效率的掌握舆情发展动向,需要根据蕴含的信息对舆情文本进行准确的划分。相较于有监督方法,无监督的聚类算法不需要大量标注的数据,能在低人力成本的条件下得到相对理想的性能,是舆情划分的有效方法。近些年,融合表示学习和聚类目标的深度聚类算法得到了广泛关注并取得了出色的性能。现有的深度聚类算法都将目标关注在如何构建一个通用的框架以提升多种聚类子任务的效果,尽管这些方法在各个子任务上都取得了不错的性能,但是,他们针对特定子任务聚类的效果仍存在提升的空间。因此,本文针对文本聚类子任务,面向静态的舆情文本数据,研究以案件划分的深度聚类改进方法。由于鲜有针对舆情文本聚类任务的数据集,本文爬取、清洗了舆情文档,构建了以案件划分的舆情文本数据集。本文指出深度聚类方法面向舆情文本数据的核心挑战是短文本稀疏性、文本信息与深度聚类算法融合。因此,提出了基于表示稀疏化和实体替换的深度聚类瓶颈分析方法。一方面,为了验证短文本稀疏性对深度聚类方法的影响,本文将Reuters新闻数据集的特征表示“稀疏化”,并发现稀疏的特征表示明显降低了现有深度聚类方法的性能。另一方面,在本研究中,舆情信息是文本信息的重要组成,一个关键任务是探究舆情信息在文本中的存在形式,本文假设实体蕴含部分舆情信息,并进行验证:将舆情文本的实体短语随机等量的替换为非实体词,明显降低了现有深度聚类算法在舆情文本数据集上的性能。本文提出了基于实体集合相似度的舆情短文本特征强化方法,目标是利用实体蕴含的舆情信息强化舆情文本的特征表示,缓解舆情短文本稀疏性。该方法有两个关键思想:自复制、基于实体的相似度度量。自复制在句子级进行,随机选择文档中的一个句子,复制并添加到文档中。它克服了数据集词数量分布不均的挑战,使得不同标签的文档表示在使用欧式距离时有较好的区分度,同一标签的长文档和短文档具有更近的距离。基于实体集合的句子级相似度度量利用了实体蕴含部分舆情信息的结论,旨在利用实体进行特征选择,发现有利于聚类的信息,强化文档表示。实验表明,基于实体集合相似度的舆情短文本特征强化方法能够有效的提升多种深度聚类方法的性能。本文提出了基于主题建模的隐话题自监督方法,旨在将文档-主题信息融合在基于自编码器的深度聚类的表示学习中,指导预训练和自监督训练,降低两个阶段的不一致性,从而获得聚类友好的表示。该方法有几个关键组成部分:自编码器;文档-主题分布获取;使用文档-主题分布指导自编码器预训练;双辅助目标分布自监督训练。“自编码器”是深度聚类网络常见的组成部分,它利用无监督的重建任务,捕获输入特征的隐藏层表示。“文档-主题分布获取”利用非负矩阵分解方法,获得主题数量与簇数量一致的文档-主题分布。“使用文档-主题分布指导自编码器预训练”指结合重建任务损失和本文设计的多分类层输出与文档-主题分布间的KL散度损失,共同指导自编码器进行表示学习。“双辅助目标分布自监督训练”是指利用本文提出的由捕获的文档-主题信息计算的目标分布和深度聚类常见目标分布分别计算的损失,指导进行自监督训练。在舆情文本数据集上的实验表明,隐话题自监督方法有效的将文档-主题信息融合在基于自编码器的深度聚类的表示学习中,获得了聚类友好的表示,提升了聚类性能。在THUCNews数据集和Stackoverflow数据集进行的方法泛化性验证,证明了方法在一般的长文本、短文本数据集上都具备一定的泛化能力。最后,本文讨论了未来在本研究方向的研究工作,潜在的工作包括:研究与基于实体集合相似度的舆情短文本特征强化方法等价的网络和损失;研究与基于主题建模的隐话题自监督方法类似的,用于一般的聚类任务、或其他任务特异的聚类任务的技术。
其他文献
传统的辅助维修主要靠维修人员的经验和极其简单的工具进行维修,在时间、设备和环境等方面受到极大限制,这使得维修工作变得难度大、效率低。增强现实(Augmented Reality,AR)的蓬勃发展,为维修工作提供了新的解决方案,如果能够在维修工作中利用移动设备和AR技术来辅助维修,将在很大程度上提高维修效率。同时边缘计算的发展,使得网络边缘的算力大大加强,利用边端协同策略提高辅助维修系统的性能也有了
代码克隆是具有相似语法或语义的重复代码片段。代码克隆检测在软件维护、代码重构以及漏洞检测等任务中起着重要的作用。为了节约大量的人力、物力,自动检测出代码库中的代码克隆是软件工程领域最重要的问题之一。近年来,利用机器学习技术分析源代码已经引起了人们的广泛关注,不少研究人员采用机器学习技术进行代码克隆检测。较早的研究工作主要使用信息检索方法,这丢失了大量的重要语义信息。最近的研究表明,借助于源代码的中
随着数字经济的发展,数字市场反垄断面临着市场支配地位认定困难、相关市场范围界定困难、数字经营者集中审查困难等问题,作为反垄断的辅助性法律如《电子商务法》《反不正当竞争法》《价格法》等在应对数字反垄断领域也存在法律适用困境。就国外数字反垄断治理的最新进展看,必要设施规则、优势地位滥用规则、跨市场竞争影响滥用规则各有其适用领域及条件,在应对数字市场反垄断治理中也起到一定的作用,但在规制方式上与传统的反
命名实体识别是指从自然语言文本中识别有特定意义的实体,例如人名、地名、组织机构名等。随着互联网的飞速发展,命名实体识别的需求不仅局限于传统的三类实体类型,进一步拓展到了对于各个专业领域命名实体的识别。在大规模数据上,基于深度学习的方法在命名实体识别任务上能够得到较好的效果。但是由于标注资源的限制,在目标领域中常常无法获得大规模的有标注数据,直接应用深度学习的方法无法获得比较好的效果。因此本文研究跨
意图识别任务旨在确定一句话的意图,即通过分类模型将问题分类到事先定义的问答系统中各种可能的意图类别当中,可以被认定为分类任务,是自然语言理解中的关键技术。意图识别任务较早就被提出,但由于缺乏标注数据无法在现实场景中得以应用,尤其是特定领域的意图识别任务当中数据匮乏更为严重。而深度学习在文本分类等多个自然语言处理任务中获得了很好的表现,但是这种方法需要大量的标注数据。本文围绕意图识别的研究现状和当前
学位
在计算机视觉领域,图像分类任务的待分类样本通常来自不同的基础类别(如车、狗、鸟、树等),然而在很多实际应用场景下需要对这些基础类别做进一步分类,这种分类的粒度相较于一般分类任务更为细致,所以称其为细粒度图像分类。因为细粒度图像分类任务区分的是同一基础类别下的子类,子类之间的差异性比与基础类别之间的差异性小很多,且往往体现在细小的局部,这成为细粒度分类任务的难点所在,同时图像噪声、拍摄角度和光照等因
跨语言词嵌入指不同语种的单词对应的表示处于相同的向量空间之中,从而可以方便地度量不同语种的词之间的相似程度,无监督跨语言词表示学习旨在不借助任何的外界跨语言信息来进行跨语言词表示的学习。现有的无监督跨语言词表示学习虽然取得了一定的成果,但仍然存在着不足之处。缺点之一便是自学习步骤中的双语翻译词典获取方法较为简单,不能为后续迭代步骤提供高置信度的双语关联信息,影响了自学习过程的学习效果,并对最终获得
肺癌是最常见的癌症之一,它的发病率和死亡率增长很快。针对不同肺癌亚型,其治疗方案区别很大,如鳞癌以放疗为主;而腺癌则以化疗为主。当前,肺癌分型主要依靠人工诊断,导致效率低,精度差。本文使用病人的CT和PET图像作为数据集,利用深度学习方法训练模型完成对肺癌类型的自动划分。论文中使用Res Net50作为特征提取网络,分别实现只使用CT图像或PET图像以及共同使用CT和PET图像作为输入进行分类,观
在人们对太空领域进行探索与利用的同时,空间技术迎来了长远的发展,出现了新的空间技术需求,例如空间站的维修、卫星回收、释放以及维护等。此外,在经历了近一个世纪频繁的太空活动之后,空间中充斥着很多太空垃圾,它们对未来的航空航天存在很大的威胁。另外,航天器所使用的宇航级CPU工作环境恶劣,面临宇宙辐射以及超过300摄氏度的温差的挑战,故宇航级CPU发展缓慢,现今国内外使用的宇航级CPU计算能力普遍低下,