【摘 要】
:
在线社交网络中的异常账号检测是当前数字经济中发展中的急需解决的关键问题之一。异常账号往往通过不良的互联网行为严重影响在线社交网络本身的用户体验以及社会信用体系。当前在线社交网络的异常账号检测主要分为有监督检测,半监督检测和无监督检测三种方案。有监督检测需要提前训练分类器,很难对未知行为进行检测;半监督检测由于无法纠正自身的错误,导致检测效果非常不稳定;基于图结构的无监督检测方案可能是更有前途的异常
论文部分内容阅读
在线社交网络中的异常账号检测是当前数字经济中发展中的急需解决的关键问题之一。异常账号往往通过不良的互联网行为严重影响在线社交网络本身的用户体验以及社会信用体系。当前在线社交网络的异常账号检测主要分为有监督检测,半监督检测和无监督检测三种方案。有监督检测需要提前训练分类器,很难对未知行为进行检测;半监督检测由于无法纠正自身的错误,导致检测效果非常不稳定;基于图结构的无监督检测方案可能是更有前途的异常账号检测方式,但准确率不高和计算耗时长不具有时效性是限制其大规模应用的瓶颈。因此本论文提出了基于节点重要度的在线社交网络异常账号检测算法。通过将节点重要程度等直接与网络结构关联的量计入SybilRank算法中的幂迭代过程来实现更大程度保留节点本身的属性。更进一步的,据现有研究现状表明,目前还没有将关联关系和异常账号检测相结合的方法,本论文首次提出可以通过好友的关联关系检测在线社交网络中的异常账号,提出了建立节点重要性系数的含权压缩公式。本文对该算法原有的分布式并行系统进行改进,采用更适合图计算的基于BSP模型的以点为中心的分布式并行计算模型Pregel取代原来的Map Reduce来完成上述两种改进算法的快速计算,这有助于更大规模的在线社交网络的异常账号检测的实现。本文对多组不同规模的社交网络数据进行了检测,根据ROC曲线获得其最佳参数后,通过AUC值和马修斯相关系数两个判据从整体和极值点处进行检测效果评估。我们发现改进算法的准确率得到了大幅度提升,且随着攻击边的比例的增加,改进算法失效的速度更慢。而在攻击边的比例比较小的时候,改进算法得到的马修斯相关系数几乎接近了1。同时采用新的分布式并行计算模型相较原模型计算速度提升了约三十倍。本文最后还对比了单节点并行与多节点分布式并行的效果,找到计算峰值以确保计算性能以及计算资源的最大化利用。
其他文献
近几年来,由于房地产信贷政策紧缩,融资调控趋严成了房地产企业共同面对的难题。为了顺应市场的需求,这时便出现了一种新型的融资方式——房地产ABS融资,房地产ABS融资包含多种类型,主要有购房尾款ABS、物业费ABS、CMBS、类REITs和供应链ABS,其中供应链ABS自2017年来发展迅速,已成为房地产ABS发行的重要组成部分。供应链ABS融资是一种新兴的融资方式,这种融资方式主要是利用供应链上的
全面预算管理是当下信息化社会中企业广泛应用的一种管理模式,可以帮助企业优化绩效考评体系、增强企业内部控制、改善企业内各项资源分配问题。通过应用恰当的预算编制方法,统计各部门的财务及非财务资源耗用情况以编制预算目标,由此帮助企业明确发展的长期目标,督促部门将资源耗费控制在预算目标范围内,帮助企业提高资源利用率并增强长期运营能力。此外将财务指标及非财务指标融入企业绩效考核评价体系,并调整企业的激励机制
随着大数据和教育信息化的发展,在线学习平台使用规模日趋扩大,学习者与在线平台的交互过程中产生大量的行为数据,通过对这些行为数据进行挖掘分析,能够更加了解学生的在线学习情况、发现学生学习规律等,这将有助于对学生在学习过程中进行实时干预、针对性指导,从而达到个性化培养的目标。因此,本文利用学生在线学习平台产生的学习行为数据进行学生成绩预测研究,达到对学生学习成绩提前干预的目的,具有一定的现实意义和学术
随着科技的进步与发展,人们的生活节奏越来越快,许多人心理出现了亚健康状态,每年因为抑郁而自杀的人也逐渐变多。目前许多学校已经开始重视学生的心理健康问题,但学生数量远远大于心理咨询老师数量,校外心理辅导机构大多价格昂贵且鱼龙混杂,很难对学生进行及时有效的心理疏导。随着社交媒体的发展与大数据时代的到来,关于情感分析的研究使得私人情感疏导程序的实现变为可能。如果能及时识别用户的情绪,那么就可以在情绪超过
图像分割是计算机视觉重点研究领域之一,作为图像后续处理过程中的重要环节具有举足轻重的作用;其中基于参数活动轮廓模型和基于几何活动轮廓模型图像分割方法受到诸多学者的青睐。近年来,随着基于活动轮廓模型图像分割方法研究的不断深入,其应用范围和领域也有了更进一步的扩展。本文对活动轮廓模型在图像分割中的应用算法进行了较为深入的研究,主要研究内容和创新点包括:(1)针对传统Snake模型算法对原始目标图像噪声
阅读是人们认识世界,增长知识的有效途径。我国的全民阅读活动由中宣部发起,已经上升至国家战略层面,推动全民化阅读有利于增强我国的国民素质,推动社会的发展。阅读大数据平台作为分析读者阅读行为数据的重要方式,能够掌握读者的借阅和阅读情况,是了解用户潜在需求,提升图书馆服务能力的有效手段。随着科技和自动化技术的发展,图书馆也迈入了数据大流通时代。但是目前各图书馆之间基本采取“自治”的业务处理方式,不同馆间
AR技术(Augmented Reality)致力于将虚拟物体叠加到真实场景中实现虚实交互。该技术属于多学科交叉融合的结果,其中虚拟物体与现实场景叠合,需考虑两者在融合中的几何外观配准问题;虚拟物体与用户交互,需考虑真实场景中目标实时跟踪问题,这也是AR技术的核心。传统配准与跟踪系统主要依赖辅助设备并且算法过于复杂,严重制约了 AR技术的广泛应用。本文研究基于GPU(Graphics Proces
心血管疾病作为近三十年来死亡率最高的疾病,逐渐被人们关注,目前大部分研究停留在治疗方面,虽然心血管疾病的治疗水平日益升高,但与之同时也要加强预防工作。随着大数据分析的快速发展,本文针对心血管疾病数据进行研究分析。本研究数据来源于和鲸社区,数据集包括年龄、性别、收缩压、舒张压等特征,对收集到的数据变量进行分析并合并整理,然后进行数据清洗,剔除异常值,最终纳入52496例患者数据作为研究对象。先对研究
随着生态环境被破坏,种群多样性也随之遭到了破坏,但与此同时人类对资源的需求却在不断增加,有效的生物资源管理策略就显得尤为重要。种群动力学中的相关成果是制定生物资源管理策略的主要依据之一,因此对种群动力学模型进行研究具有一定的实际意义。在研究单种群模型的基础上,本文主要研究瞬时与非瞬时脉冲收获对系统的影响。运用脉冲微分方程相关理论,建立了新的单种群模型及捕食模型,并对所建模型进行分析,最后通过数值模
生物数学是生物学和数学相结合的一门新起的学科,生物数学通过一个多世纪发展以来,他发展出了许多新的分支,例如研究传染病发展过程和传播规律的流行病动力学,研究生态学中种群与环境之间相互作用以及生态学中种群之间相互作用的种群动力学等。但是不管多复杂的模型都是建立在单种群模型基础上的。单种群模型是发展和研究多种群相互作用,复杂网络模型以及生命科学领域各个复杂系统的基石。单种群模型能够精准的刻画生物现象以及