论文部分内容阅读
随着社交媒体的快速发展,大量社会热点在以微博、论坛为代表的社交媒体平台迅速生成、发酵、和扩散。这些由普通用户产生的内容(UGC,User Generated Content),由于发布门栏低,缺乏监管,带来了虚假信息的泛滥。这些虚假的信息借助社交媒体平台广泛传播,误导群众,给网络秩序和社会稳定带来了严峻的挑战。如何利用技术手段对以社交媒体为代表的网络平台进行谣言检测是当前迫切需要解决的问题。传统的谣言检测方法主要是通过构建大量人工特征并利用机器学习算法进行谣言分类,这些方法需要耗费大量的人力并且传统的机器学习模型不能学习谣言动态变化的特性。近年来,深度学习在文本、语音、图像等领域取得了重大突破,给其他领域的相关研究带来重要的启发。 本文主要研究基于深度学习技术的谣言检测方法,并通过可视化的技术手段,对谣言检测任务中潜在的特点进行分析,挖掘谣言模式。主要的研究工作包括: 1.设计基于单层神经网络的消息级谣言检测方法,该方法首先通过文本的词向量表达,将文本映射成基于词向量表达的文本矩阵,并利用单层神经网络模型进行消息级谣言检测。实验结果显示,基于单层神经网络的模型相比于传统的方法提高了2.97%的准确率。 2.提出了基于层次化循环神经网络的事件级谣言检测方法,该方法引入微博的转发信息,将一个微博信息在时间维度上进行子事件的抽取,通过构建层次化的循环神经网络模型,同时学习谣言在时间和文本维度上的潜在模式,在谣言数据集上取得了95.6%的准确率,相比于传统的谣言检测方法提高了5.77%。另外,利用1个小时的数据,谣言检测的准确率就能达到93.28%,显示出我们提出的模型可以很好的运用于谣言的早期检测。 3.提出基于深度学习的模式挖掘方法,从谣言数据中挖掘潜在的模式。我们分别从定性和定量两个方面对抽取的模式进行了实验对比分析。基于深度学习挖掘的模式优于传统的基于特征选择的方法。基于挖掘的谣言模式,我们实现了一个实时争议性新闻发现系统。