论文部分内容阅读
随着互联网的普及和飞速发展,人们之间的交流方式从以前的纸质信件,到现在的电子邮件、微信、QQ、微博,发生了巨大的变化。而这些互联网应用的普及使用产生了一个新的概念--网络虚拟身份。从广义上讲,网络虚拟身份是指能标示出某个独立个体的一个身份ID,而从狭义上讲,网络虚拟身份是指人们在一些网站或者网络应用注册的账号,让网站区分出不同的用户。移动互联网让人们交流越来越紧密和频繁,两个虚拟身份进行交流通信就形成了一个关系对,这个关系可以是有方向或者是无方向的,取决于具体的关系定义。海量的关系对相互关联从而会产生一个社交网络关系图。为此,本论文将首先对这些海量的网络虚拟身份关系数据进行提取,这里的提取是建立在原始网络数据流的基础上。然后对提取出的网络虚拟身份之间的关系进行分析,主要目标是由已知的网络虚拟身份关系挖掘出未知的、可能的身份关系强度。本文首先介绍了网络虚拟身份及关系的基本概念,和社交网络关系分析的相关概念。其次,介绍了一些相关理论基础,复杂网络相关理论,社群发现算法理论,标签传播算法,并对Spark图计算框架GraphX进行介绍。本文设计和实现了一个通用的网络虚拟身份账号关系的提取系统,可以从实时网络流中还原出数据,并对网络虚拟身份进行提取,目标是提取出两个有交互关系的身份关系对。然后对这些提取的身份关系对数据进行关系挖掘分析。主要分为两部分,一是在粗粒度关系分析上,本文创新性地将经典的社群发现算法COPRA,利用GraphX计算框架进行并行化,在性能和准确性上达到预期效果,从而将虚拟身份关系图划分为一个一个单独的社群。二是在细粒度关系分析上,利用GraphX实现了 2跳邻居算法,并以此为基础实现了两个节点间的共同好友计算的算法。根据这两种粒度分析,可以将图关系网络中任意两点的关系的强度划分出来,从而挖掘出任意两节点之间的关系。最后,总结全文并对未来的工作进行展望。