论文部分内容阅读
近年来,以微博、论坛为代表的社交媒体平台凭借其开放性、实时性等特点迅速成为公众获取新闻消息的重要渠道。然而,社交媒体平台给公众提供了方便快捷的信息渠道之余,也带来了泛滥的虚假信息。因此,如何利用技术手段进行有效的谣言自动检测变得越来越至关重要,逐渐成为了各领域的研究热点。 针对这一任务,本文研究了基于用户信息的谣言检测方法,试图从信息源入手,找到谣言自动检测的突破口。目前基于用户信息的谣言检测方法大多数侧重利用用户的属性信息来对用户建模,而本课题着重利用用户的历史信息和关系信息,对用户的动态性和关联性在谣言检测任务上的贡献做出了更深入的研究。主要的工作包括: 基于用户历史信息的谣言检测方法:该方法基于用户绝大多数信息都是真实的,谣言只占极少数的假设,将谣言检测转化为在用户层面挖掘异常微博的异常检测问题。基于此思想,本文设计了一种基于自编码器的异常检测方法:首先,从用户行为特征,微博统计特征,文本特征等三个方面提取特征来表示用户的历史微博;然后,考虑到文本特征的时序特点,设计了基于长短期记忆网络(LSTM)的序列到序列自编码器来学习历史微博的特征表达,并基于该学习到的历史微博表达来区分谣言。实验结果从多方面验证了本算法的显著优势。 基于用户关系信息的谣言检测方法:该方法对用户的关联性在谣言检测任务上的作用进行了探究。首先,本文构建了一个以事件为单位的,包含用户和微博两类节点、三类支持关系的异构可信度传播网络。在此网络的基础上,设计了一种无监督的迭代可信度传播策略,可以同时输出用户和微博的可信度,最终,通过可信度的值对消息的真实性进行分类。在百万级真实数据上的充分实验表明,本方法显著地优于现有研究。