基于MapReduce的社区挖掘算法

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:safemon
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,更多的人加入到互联网中。作为当前最火的一种互联网应用,社交网站俘获了广大的用户。如新浪微博,其用户数量已突破3亿;国外知名社交网站twitter用户数量突破了5亿。由于社交网络吸引了如此大规模的用户数量,无论是管理者还是使用者都将面临一个问题:怎样找到与自己有着共同兴趣或联系紧密的人来互动,即传统意义上的社区。社区结构的研究对于理解和分析网络结构及功能有着非常重要的作用,已经广泛应用到生物学、社会学等各种领域。社区挖掘正是基于这种目的而产生的,许多研究人员从不同角度出发提出了各种社区挖掘算法,目前的社区挖掘算法大都是迭代算法,这些算法不能将网络用户关系分割成独立的部分,无法采用并行计算的编程方式,往往只能适用小规模的用户数量,当用户数量增大时,它们会因计算量的增大而导致计算时间大大增加。MapReduce作为一种并行编程模型,擅长处理大规模的数据和计算量。如果采用MapReduce编程模型将传统的社区挖掘算法并行化,能很好的利用集群的计算优势处理大用户量数据,缩短算法的执行时间。本文提出了一种基于MapReduce的社区挖掘算法,此算法对传统的基于标签传播的社区挖掘算法进行了改进,将该算法成功运用到MapReduce编程模型中,既保持了原有算法的时间复杂度,又适合并行计算,能够快速的从大型社交网站中并行高效的挖掘出高质量的社区,提高了大型网络社区挖掘的计算效率。本论文的主要工作及创新点有以下几方面:第一,通过新浪微博API获取实验数据集,经过处理后得到270多万用户关系数据;第二,结合标签传播算法中的同步更新过程和异步更新过程,改进基于标签传播的社区挖掘算法,并重新设计了数据结构,使算法能够MapReduce化,提出基于MapReduce的社区挖掘算法;第三,通过计算节点的全网聚集系数和社区聚集系数对结果进行质量分析,分析结果表明了基于MapReduce的社区挖掘算法的可行性和有效性;第四,采用MapReduce编程模型计算聚集系数,缩短了结果分析时间,提高了分析效率。
其他文献
无人机与海面浮标无线通信系统是一种高速、宽带海上远距离通信系统。以实时、快速的获取海面浮标数据为前提,进行海洋科学调查、鱼情环境调查和海洋军事环境观测等远程遥测
随着技术的进步与人们需求的不断增加,嵌入式系统的应用范围不断扩大,尤其在电子、通信、交通等领域。在这种背景下,本文从应用与实践的角度出发,设计开发了一款基于32位ARM微处
WCDMA HSUPA技术是一项能够提高WCDMA上行数据传输速率和系统容量的无线接入技术。在HSUPA技术中为了达到物理层上行峰值比特速率,采用极小的扩频因子进行物理信道扩频。由于
夜间行车时的眩光现象一直是困扰机动车驾驶员的主要问题之一。针对此问题,本文设计了一个基于通用高速数字信号处理器(DSP)的数字视频图像信号处理系统。该系统运用了DSP技术
无线资源管理方案是第三代及未来移动通信系统的关键技术和研究的热点。该技术包括切换控制部分、呼叫接纳部分、功率控制部分、分组调度部分、负荷控制部分以及移动性管理等
学位
低轨卫星通信系统作为构建全球无缝通信系统的重要组成部分正在飞速的发展,移动性管理是其中一个重要的研究方面。本文在位置区划分策略方面提出了一种新的混合位置区策略,通
随着通信技术、计算机技术的迅速发展和网络规模的不断扩大,网络可靠性和可维护性的新需求不断涌现,对网络管理,即网络的配置、监控和维护提出了更高的要求。本文针对PHS与IP融
由于传统能源(如煤炭,石油,天然气等)的供给已出现严重短缺局面,人类开始将目光转向可再生能源的发展,太阳能作为一种新型的绿色可再生能源,与其他新能源相比其数量大,分布广,是最理想的可再生能源。特别是近几十年来,随着科学技术的不断发展进步,太阳能光伏系统及其相关产业已成为发展最快的行业之一,因此对光伏系统的研究也是越来越重要。目前,由于光伏电池的转换效率较低,且价格较高,使其回收成本周期长,严重阻碍
近些年随着因特网发展以及存储方式的转变,音乐的传播宣传模式从传统的音乐电台播放或者歌手现场演唱转变为网络传播,而音乐的存储方式也从传统的磁盘或者光盘存储转变为方便快