基于Spark的大规模复杂网络的社区发现算法的研究与改进

来源 :吉林大学 | 被引量 : 0次 | 上传用户:lyxdaisy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
复杂网络是计算机学界比较经典的研究领域之一,研究者们将现实生活中的一些具体现象抽象为复杂网络,通过复杂网络的拓扑结构、节点或边包含的隐式或者显式的信息,来抽取出人们感兴趣并且能为社会带来巨大价值的信息。例如,通过人群接触的复杂网络确定某些传染病的传染源以及传播势头,利用知识图谱获取某一学科的发展趋势以及与其它学科的交叉情况等。在复杂网络领域中,社区发现是目前最基础、最广泛的研究。社区发现,是根据已有的知识将复杂网络划分为若干个子模块,一个模块成为一个社区,里面包含一些关系密切的节点与连接边。社区发现可以理解成一种基于复杂网络的无监督的聚类算法。随着模块度概念、谱聚类算法的提出,社区发现算法在21世纪初期迅猛发展,各种各样的社区发现算法被提出并得到论证。优秀的社区发现算法可以提高复杂网络社区划分的指标标准,从性能方面也可以提高发现效率,减少时间开销。但是随着大数据时代的降临,复杂网络的规模也是快速发展。在进行实际操作时,单机的计算能力无法满足人们的需求,即使进一步优化算法,在单机条件下也无法带来质的飞跃。因此,如果将计算交给大数据计算平台,就可以满足人们对规模巨大的复杂网络进行高效计算的需求。大数据时代产生了许多大数据计算框架平台,其中,Spark因为计算速度快,生态圈丰富,从而获得了大数据业内的广泛认可。并且,Spark计算平台拥有的相关图计算组件GraphX,可以帮助实现算法同步化。基于上述知识,本文提出基于Spark的大规模复杂网络的社区发现算法的研究与改进。本文首先对一个无权值的复杂网络进行加权预处理;其次选取经典的高效社区发现算法——标签传播算法,进行包括标签初始化、标签传播和标签更新策略、迭代收敛策略等多方面的优化工作,进而建立一个新的社区发现算法模型;然后,将算法接入Spark,通过GraphX编程实现算法同步化,并建立Spark实验平台;最后,通过经典的复杂网络数据和规模较大的复杂网络数据进行实验,与一些经典的社区发现算法进行对比,验证提出的算法是否有效,并且通过大规模复杂网络数据集来验证基于Spark GraphX平台确实大幅度提高了在复杂网络中进行社区发现的计算性能。
其他文献
布尔网络是一类由布尔逻辑变量和布尔逻辑函数刻画的动态系统.受扰布尔控制网络是在布尔网络中增加了布尔逻辑控制变量和布尔逻辑干扰变量后的一类离散动态控制系统.布尔网络
茶尺蠖是危害茶树的主要害虫之一,严重制约了茶叶的经济价值。咖啡碱是茶树叶片中含量最高的生物碱,对一般昆虫有毒。但茶尺蠖却在长期与茶树协同进化过程中,不仅可以吸收消化茶叶营养物质,还逐渐形成了代谢咖啡碱的特殊能力。已知的一些研究表明昆虫肠道微生物具有植物毒素及杀虫剂的解毒功能,但目前茶尺蠖肠道共生菌是否参与咖啡碱的解毒还不清楚。因此,本研究拟通过扩增子高通量测序技术和传统培养方法初步探讨茶尺蠖肠道菌
近些年,地震背景噪声相关研究迅速发展,因其不受地震时空分布的限制,仅依靠布设地震台站就可以获得台站下方结构信息,使该方法成为地震学领域最热门的研究方向之一。目前大多数相关研究利用了背景噪声中提取的面波信号,事实上通过适当的数据处理方法,也可以从背景噪声中提取出体波信号。本研究选取2009年9月到2011年8月期间布设在中国东北地区的94个流动台站的连续观测数据,通过背景噪声自相关方法提取了莫霍面P
偏振光中包含被测样品丰富的微观结构信息。细胞发生癌变时,细胞结构会发生变化,正常细胞与癌变细胞对偏振光的散射有不同的影响,通过偏振成像技术可获取其偏振特性以区分正
遥感图像变化检测技术在环境检测、地理研究、工业生产和军事打击等领域的广泛应用使得该课题得到了学者们充分的重视。合成孔径雷达(Synthetic aperture radar,SAR)因其具有全天候监测日夜成像、覆盖面积广和分辨率高的特性,在处理环境恶化、城市变迁等实际问题上有着重要的实用价值。变化检测技术发展的方向是努力克服外部不利条件,有效区分出遥感图像中的变化区域。堆栈式神经网络能对图像的深度
目的:细胞都倾向于产生以有氧糖酵解的方式消耗葡萄糖,从而借助磷酸戊糖旁路(Pentose Phosphate Pathway,PPP)的代谢途径分流,增加从头合成核苷酸所必需的代谢中间产物,而葡
人体动作识别作为计算机视觉研究领域中最具挑战的研究方向,是当前的研究热点,基于Kinect骨骼数据的人体动作识别带来了一种全新的人机交互方式,在智能监控、虚拟现实、人机智能交互等方面均具有广泛的应用前景。如何高效地利用计算机实现人体动作识别成为一个值得研究的课题。人体动作识别方法最为关键的两步为特征提取与分类器构造。传统的基于Kinect骨骼数据的人体动作识别方法大多数基于三维空间中的动作数据,较
目的通过构建pGenesil-1-shRNA-Alox5重组质粒,研究干扰花生四烯酸5-脂氧合酶(Arachidonate5-lipoxygenase,Alox5)基因在耐阿霉素(Adriamycin,ADM)的慢性粒细胞白血病(chroni
传染病模型的定性分析是研究传染病传播规律的一种重要方法.本论文研究了几种异质环境下具有齐次Neumann边值条件的反应扩散传染病模型的动力学行为.在数学建模上,我们主要关注以下几点:1)人口的出生和死亡:模型总人口的数量不是守恒的;2)空间异质性:模型的所有流行病学参数都是依赖于空间位置的函数,而不是常数;3)个体的流动性:易感个体和染病个体在区域中可以自由地移动;4)自发感染机制:易感者自身以一
疾病的发生往往与细胞器的稳态密切相关。例如,溶酶体是细胞的消化器官,内含多种水解酶,水解外源或内源物质。大多数溶酶体水解酶的末端为甘露糖-6-磷酸(M6P)基团,能被高尔基