基于机器学习的新浪微博机器用户识别研究

来源 :北京理工大学 | 被引量 : 0次 | 上传用户:yijiutaosheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网的普及和社交网站的发展,新浪微博作为一种主流的媒体形式和交流平台受到广泛关注,在用户量增长的同时,一大批机器用户也随之涌现,它们耗费系统资源、影响平台效率、混淆网民视听,尤其是其中的恶性用户大量发布虚假信息、散布谣言、误导网民舆论,严重污染网络环境,危害网民利益。本文以新浪微博用户为研究对象,旨在探索识别微博一类典型虚假用户——机器用户的有效方法。本文数据来源为新浪微博数据仓库,经过数据预处理,利用统计分析法对机器用户和真实用户进行行为分析和特征研究,提炼出具有显著区分度的特征,并依据这些特征,采用机器学习中单一决策树C4.5和组合决策树的随机森林构建机器用户识别模型,模型训练采用10折交叉验证,通过调用机器学习工具包Weka完成。实验及评估比较了两种不同算法下的分类器的性能,并且调整特征数进一步研究。实验表明本文研究的机器用户特征具有很好的区分度,并且构建的基于C4.5和随机森林的微博机器用户识别模型具有良好的性能。本文的研究工作对避免虚假信息扩散,营造和谐的网络环境有重要的现实意义,对于其它领域的机器作弊用户的研究有着很好的借鉴作用。
其他文献
近年Z市城镇化进程不断加快,城市交通拥堵压力增大,Z市政府推进实施了城乡公交一体化改革。A公交公司作为Z市城区公交的唯一运营方,成为城乡公交一体化的实施主体。票价收入
随着人类社会进入移动互联网的新时代,基于地理位置信息的相关服务也迅速的发展起来。目前人们已经不仅仅满足于室外环境下的位置信息服务,在室内环境下的人员和设备定位等服
医学图像是一类被广泛应用于临床诊断的数字图像,但医学图像具有分辨率低,不同器官组织分界模糊的特点。近年来,针对医学图像的自动语义理解研究已经成为了一个焦点。目标检
随着高性能计算设备的不断升级,大数据时代到来,人工智能领域获得了长足发展,其中深度学习技术已经成为当前的研究热点并获得了广泛的应用,已经成为计算机视觉领域主流算法。
立体匹配是计算机视觉领域中的核心问题之一,它主要研究如何从不同视角的两幅图像中获取像素间的对应关系,即视差。近年来,立体匹配的研究取得了巨大的发展和进步,立体匹配技
金属有机框架(metal-organic frameworks,MOFs)是由金属离子或金属簇与有机配体形成的具有规则结构的多孔晶态材料,广泛用于气体吸附和分离、化学传感、光学材料以及多相催化等
随着车联网(Internet of Vehicles,Io V)技术的普及,车辆的数量和车辆产生的数据量日益增加,由于车辆自身的计算资源和电池容量存在上限,在车辆本地执行任务无法满足低时延和
森林分布极为广泛并且地形复杂多样,以传统方法对森林结构参数进行调查,需要耗费大量的人力、物力和财力。无人机和计算机视觉技术的快速发展,使得快捷、较低成本、较高精度
在大数据牵引的信息时代,随着军事信息获取和分析手段的多样化和精细化,虽然为作战人员带来了磅礴的信息资源,但也造成了严重的信息负担。如何快速准确的从海量信息中抽取出
本英汉翻译项目包括两部分。第一部分是翻译研究报告,第二部分是选文及其译文。翻译项目的原文选自哥伦比亚州立大学哥伦布分校语言和文学系的助理教授诺琳·格鲁弗·莱普所著的《边界以西:美国西部边疆多元文化文学》一书中的第三章“美国边疆华裔中存在的新娘买卖和被迫单身现象”。本章讲述了早期中国移民引发美国恐慌,美国利用移民法和多种手段来抑制中国人口的增加,其中包括买卖新娘、禁止组建家庭、限制入境等。根据皮特·