基于半监督学习的微博谣言检测研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:zhenzhurujun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博作为高科技信息化时代产物,在快速发展的同时,随之迅速蔓延的谣言信息也成为日益突出的问题。谣言的自动检测研究作为社交网络谣言研究、监控、应对和治理的前提,正逐渐受到关注,关于微博谣言识别的研究工作越来越多。国内外学者对社交网络和微博尤其是Twitter可信度作了大量的研究,主流研究实现的主要思路是从用户特征、文本内容特征、传播特征等方面抽取信息特征,建立分类器来实现谣言检测。然而采用传统机器学习算法并不能有效解决微博谣言检测中存在的数据标注代价高昂和数据类别不平衡导致检测准确率低等问题。本文以新浪微博为背景,以微博谣言为研究对象,在前人将检测任务作为分类问题求解的框架下,重点关注于解决传统监督学习算法数据标注代价高昂的问题,将半监督学习算法引入微博谣言检测中。同时,针对微博中谣言数量远少于非谣言、准确识别谣言比识别非谣言价值更高的事实,将微博谣言检测定义为一个不平衡数据的二分类问题。综合上述因素,提出一种针对不平衡数据集的半监督学习算法,用于谣言检测的分类任务中。本文的工作主要体现在如下两个方面。首先,围绕不平衡数据集分类,提出一种基于Co-Forest算法针对不平衡数据集的改进方法——ImCo-Forest算法(semi-supervised learning algorithm from imbalanced data based on Co-Forest),利用SMOTE算法和分层抽样平衡数据分布,并通过引入代价敏感的加权投票法来提高对未标记样本预测的正确率。为验证算法的有效性,在10组UCI测试数据上进行了实验比较。其次,在研究不平衡数据集分类问题的基础上,将不平衡数据集分类的机器学习方法引入微博谣言检测领域,并给出一个微博谣言检测的流程图。文章最后,通过2组微博谣言的实证实验证明了所提方法的有效性和优越性。通过在新浪微博平台上抽取的数据进行实验,表明论文提出的方法能有效解决微博谣言检测中存在的数据标注代价高昂和数据类别不平衡导致检测准确率低等问题,适用于海量微博数据的分析和谣言检测。
其他文献
随着信息量的快速增长,信息的重要性也在不断的提高,而数据作为信息的表现形式,其完整性和安全性成为系统安全的重要内容。数据备份是维护系统安全性和可用性的重要手段,而如
当一个用户向搜索引擎提交一个查询时,其搜索意图可以分为以下三类:(1)寻找某一个站点—导航查询(Navigational Query);(2)寻找Web站点上的某种以静态形式存在的信息—信息查询
P2P技术是近年来改变Internet应用模式的新技术之一,P2P技术不仅为用户提供了前所未有的便利,同时也试图有效地整合互联网的潜在资源,将基于网页的互联网变成动态存取、自由
近年来由于网络的普及,人们对于数字多媒体的使用和传输变得越来越广泛。然而,人们在享受网络带来的方便和快捷的同时,也发现了数字多媒体信息传播的过程中所产生的一些负面问题
20世纪90年代以来,随着信息技术、计算机技术、特别是网络技术的飞速发展和广泛应用,信息化成为各国普遍关注的焦点。电子商务这一年轻的学科正以其茂盛的生命力茁壮成长,在
软件、图像、视频、音频和文本等数字产品的版权问题一直都是近年来大家比较关心的热门研究课题。对于这些数字产品的版权保护通常都是通过对这些数据嵌入水印来解决。本文对
随着计算机技术的不断发展,纺织行业中很多传统的检验工作逐渐被计算机自动检测取代。检测效率得到提高的同时,检测的稳定性得到了保证。本课题为教育部留学回国人员科研启动
数据集成解决了信息孤岛问题,然而在一个企业范围内设计实现一个大规模分布式的数据集成中间件引擎存在诸多问题,如灵活集成遗留系统、提供高效可靠的服务等。本文提出一种面向
随着信息技术的飞速发展,基于Internet的应用已经由单一的业务向数据、语音和图像“三合一”的多媒体信息形式以及综合业务的方向发展。同时,由于数字电视的高质量画面伴音、
嵌入式实时操作系统是嵌入式系统的基础软件平台,嵌入式实时操作系统的设计与实现成为当前研究的热点。本论文在研究嵌入式操作系统设计理论的基础上,提出了一个专门面向资源