社交网络中相关社区查询研究

来源 :宁波大学 | 被引量 : 0次 | 上传用户:flyfish11111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网上的许多应用形成了社交网络。社交网络上一些邻近节点构成社区,社区就是联系紧密的成员聚集的一个子图结构。如何在社交网络中发现和分析社区是目前的一个研究热点。研究工作的很大部分是关于社区发现,即如何在整个社交网络中找出其中所隐含的所有社区。和社区发现相对应的另一类研究是社区查询。社区查询是指:给定社交网络上的某个节点作为查询点,找出该点所在的一个或多个社区。当查询点所在的社区有多个时,这些社区称为重叠社区。  不少学者对社交网络中的社区查询进行了研究。这些研究中的社区查询只查找查询点所在的社区。但我们的研究发现,在社交网络的实际应用中,用户还经常会关心查询点不在,但与查询点相近的社区。如基于论文合作关系形成的研究者社交网络中,某个研究者可能会查看他本人所在的社区,也会查看他不在但邻近社区中有哪些研究人员,即那些和他研究工作相近的研究人员。  本文引入相关社区的概念来解决上述问题,定义查询点可达的社区为该查询点的相关社区。相关社区既包括查询点所在的社区,也包括查询点不在,但有路径可达的社区。因而相关社区既可能与查询点邻近,也可能处于社交网络上离查询点较远的位置。在实际应用中,当然主要关心那些离查询点近的相关社区,即要找出离查询点最近的若干个相关社区,将该问题称为 Top-K相关社区查询。  同时,研究领域和工商业大数据时代来临,数据量数据类型膨胀式的增长,社交网络也急速发展,往往形成很大的图。针对大图的社区查询面临着数据量大,单机装载计算困难的难题。同样,在相关社区查询的算法设计上也面临着大数据的挑战。单台计算机的处理能力以及传统的技术架构已经很难满足海量数据处理的计算要求,而分布式并行计算框架的出现为海量数据下的数据处理带来了曙光。Hadoop云平台为大数据的处理而生,能够处理海量数据,但是其计算框架面临着计算单一,不支持循环迭代计算等难题,基于Hadoop的Spark内存计算平台集成了Hadoop云平台的优点,支持迭代计算,同时内存计算极大的减小了大数据计算处理的时间消耗。由此本文深入研究了Spark平台分布式大图社区查询计算算法,提出大图中 Top-K相关社区查询的解决方法。  论文在第一章和第二章介绍了研究背景,在第三章和第四章分别提出一种社交网络中Top-K相关社区查询方法以及基于大数据平台的Top-K相关社区查询算法研究,并分别在单机和集群环境(Hadoop,Spark集群)进行了测试验证和结果分析。其中大数据平台的Top-K相关社区查询算法研究是对社交网络中 Top-K相关社区查询方法的补充与完善,它利用分布式并行内存计算,解决了大图中相关社区查询的难题,并且通过算法改进,进一步提高检索效率。本文的主要工作包括两个方面:  1提出一种社交网络中 Top-K相关社区查询方法。本文定义了团和相关社区的概念,研究一种快速检测查询点的Top-K相关社区的方法。文中提出了一个向下探测搜索算法:从查询点出发探测团结构,再由团结构向外延伸扩展得到社区,通过循环迭代快速得到查询点的Top-K相关社区。同时,为了减少搜索空间和计算时间,对原算法进行了改进。通过全面的实验对比,验证了算法的有效性和改进算法的高效性。  2基于大数据平台的Top-K相关社区查询算法研究。大数据时代来临,我们周围充斥的海量数据,对于海量数据的数据处理成为一个热点。社交网络上社区探测的研究,也面临了大数据的冲击,怎样在大的社交网络图上进行社区查询成为一个难点。定义查询节点可达的社区为其相关社区,在大图上怎样快速查找与查询点相关的Top-K相关社区具有现实研究意义。本文依旧根据团的概念来定义社区,依据相关社区的概念,探寻大图上 Top-K相关社区查询问题的解决方法。文中基于Spark分布式并行计算框架,提出了一个Top-K相关社区的层次迭代探测算法算法,采用分而治之的策略,将海量数据分解为若干个规模较小的数据集,并分散至 Spark分布式集群上,再进行相应的连接扩展计算操作得到最相关的前 K个社区集合。通过全面的实验对比,验证了该算法的有效性和高效性。
其他文献
随着计算机和网络技术的加速发展,各种数据以不同的形式存储在不同的系统中,呈分布异构状态。而越来越多的用户希望能够透明地获取和处理这些海量信息源中有用的数据,这也是
轨迹规划是机械臂设计和控制中的一项基本问题。为优化机械臂的工作性能,提高机械臂的工作效率,本文将机械臂运动过程中的执行时间和能量消耗作为优化目标,采用免疫多目标优
集成电路、嵌入式系统、微型机电系统、人工智能、自动控制、计算机科学、分布式信息处理和无线通信以及其他多种先进技术相互融合,产生了无线传感器网络这门新的学科。无线
随着计算机技术和网络技术的飞速发展,嵌入式系统得到了广泛的应用,越来越多的信息化产品都接入互联网并通过Web页面进行远程访问和控制,嵌入式WebServer已经成为了嵌入式系统研
现有半调图像压缩算法较少考虑半调图像特性,压缩效果并不理想。本文在考虑了阈值矩阵尺度对所生成有序抖动半调图的影响后,制定了对抖动图像进行预处理的策略,并在此基础上,利用
研究对象存储控制器的硬件设计,使其高效完成对象级接口的智能化管理和复杂存储协议的解析,对对象存储系统整体性能提升有重要意义。基于SoPC(System on Programmable Chip,片上可编程系统)技术,在FPGA(Field Programmable Gate Array,现场可编程门阵列)上实现的对象存储控制器,具有功能配置灵活,调试方便,成本较低等优点。采用Cyclone II器
随着科学技术的日益进步,物流系统逐渐成为现代社会经济系统的重要支柱,物流总成本已在国民生产总值中占有相当的比重。物流配送是企业与消费者在物流活动中直接相连的环节,
客户关系系统(CRM)以客户为中心,实现客户、人员、销售、服务的协同工作。企业通过对客户、合作伙伴以及竞争对手的分析和挖掘,快速把握市场先机,提高市场营销能力和服务质量
Internet的产生与发展,信息技术的不断进步,信息网络化和社会化进程的加快,信息化工程取得了一定的成绩,实现了信息的对外公开。但是,在信息化的道路上也出现了一些新的问题,
无线传感器网络(WSN)是近些年发展起来的一项新技术,它最早应用于军事领域,如今的低成本传感器节点已经可以应用于空间探测、医疗健康、环境科学和商业应用等众多领域。无线