网络虚拟身份关系的提取和分析

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:xinxinxiangrong1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的普及和飞速发展,人们之间的交流方式从以前的纸质信件,到现在的电子邮件、微信、QQ、微博,发生了巨大的变化。而这些互联网应用的普及使用产生了一个新的概念--网络虚拟身份。从广义上讲,网络虚拟身份是指能标示出某个独立个体的一个身份ID,而从狭义上讲,网络虚拟身份是指人们在一些网站或者网络应用注册的账号,让网站区分出不同的用户。移动互联网让人们交流越来越紧密和频繁,两个虚拟身份进行交流通信就形成了一个关系对,这个关系可以是有方向或者是无方向的,取决于具体的关系定义。海量的关系对相互关联从而会产生一个社交网络关系图。为此,本论文将首先对这些海量的网络虚拟身份关系数据进行提取,这里的提取是建立在原始网络数据流的基础上。然后对提取出的网络虚拟身份之间的关系进行分析,主要目标是由已知的网络虚拟身份关系挖掘出未知的、可能的身份关系强度。本文首先介绍了网络虚拟身份及关系的基本概念,和社交网络关系分析的相关概念。其次,介绍了一些相关理论基础,复杂网络相关理论,社群发现算法理论,标签传播算法,并对Spark图计算框架GraphX进行介绍。本文设计和实现了一个通用的网络虚拟身份账号关系的提取系统,可以从实时网络流中还原出数据,并对网络虚拟身份进行提取,目标是提取出两个有交互关系的身份关系对。然后对这些提取的身份关系对数据进行关系挖掘分析。主要分为两部分,一是在粗粒度关系分析上,本文创新性地将经典的社群发现算法COPRA,利用GraphX计算框架进行并行化,在性能和准确性上达到预期效果,从而将虚拟身份关系图划分为一个一个单独的社群。二是在细粒度关系分析上,利用GraphX实现了 2跳邻居算法,并以此为基础实现了两个节点间的共同好友计算的算法。根据这两种粒度分析,可以将图关系网络中任意两点的关系的强度划分出来,从而挖掘出任意两节点之间的关系。最后,总结全文并对未来的工作进行展望。
其他文献
“法定职责必须为、法无授权不可为”。加强烟草专卖零售许可证后续监管始终是专卖管理的重要内容。本文从当前烟草专卖零售许可证后续监管存在的问题及难点入手,分析了产生的
目的 探讨小剂量多巴胺、多巴酚丁胺联合治疗新生儿硬肿症的效果。方法 将68例患儿分为两组,两组均给予常规治疗,治疗组在此基础上加用多巴胺3~5μg/kg·min^-1、多巴酚丁胺
背景:骨髓间充质干细胞因制备较易、具备有较强的自我增殖能力、稳定的生物学性状、低免疫原性、能在宿主脑中生存较长时间、易于转染外源性基因且有较高的转染率、对肿瘤细
打开他的博客,一行字格外醒目:一个走在教育路上的行者。知道他的人都清楚,他是一个脚踏实地的"行走者",低调而不失淡定,平凡而不失果敢,默默地行走在促进教育改革的路上;他又是
女孩多多每天晚上都会和月亮说句话,那个时候月壳刚刚出来,而多多就要睡觉了。她说:“月亮先生,你好!”