论文部分内容阅读
在资讯高速流动的今天,智能移动终端不断丰富,网络信息技术迅猛发展,微博等社交网络媒体已日渐成熟,并逐渐改变了人们的表述和生活方式。其不足140字的简短内容,满足个人碎片化倾诉与沟通的需求,不仅吸引了普罗大众,而且网罗了各界名流。微博信息丰富、传播迅速、影响巨大的特点,使其已经成为我国舆情爆发的主要策源地和传播媒介,甚至在重大灾难事件中扮演着灾难救援阵地的角色。与此同时,微博信息多样化、表达自由化的特点也造成微博空间谣言丛生,虚假信息层出不穷,营造了极不健康的网络环境。尤其在突发事件应急响应期间,微博中一条虚假信息的出现很可能破坏民众稳定的情绪,甚至影响灾难的救援。微博谣言检测技术就是一项能针对微博中的海量信息进行分析、识别和过滤的技术,能够及时发现和处理微博空间中的虚假信息和谣言。 传统的微博垃圾包括广告、恶意网站、水军账号以及谣言信息,本文更关注与新闻重大突发事件相关的微博事件谣言检测。所谓事件谣言,主要指以突发公共事件为背景,报道或者捏造与该事件相关的虚假信息。该类型的谣言会对国家安全和社会稳定造成更恶劣的影响。 对微博内容的研究,首要解决的问题就是数据获取。本文结合新浪微博API和网络爬虫技术设计了主题聚焦网络爬虫系统T-WeiboCrawler,采集了多个以热点舆论事件为背景的主题微博数据,其中包含一定数量的谣言微博。其次,大量用户情感信息集中在微博碎片化和离散化的文本内容中,如主题微博中的群体响应数据,包括转发微博和微博评论,对原内容起到了判别和辨识的作用。例如谣言微博与真实的新闻微博相比,转发和评论内容将表达出更多的质疑情绪。因此,可以通过情感分析方法提取群体响应中的情感特征,进而用于谣言检测。本文通过整理和拓展已有的情感知识库,从词、短语和语法层面上对微博文本内容进行了情感分析,实现了微博文本情感计算算法,并抽取了多种情感特征用于谣言检测研究。最后,根据传统的谣言检测研究方法,本文将谣言检测问题视为可信分类问题进行处理。在构建特征集合时,结合了传统常用特征和本文新提出的7种情感特征;在确定谣言检测算法时,本文选择的谣言检测模型是支持向量机(SVM)分类模型。针对以上三个方面的研究工作,本文均通过分析和实验,验证了上诉方法的有效性。