论文部分内容阅读
近年来,社交网站得到了越来越多的关注,一大批社交网站如Renren、Facebook等快速崛起,这些互联网社交网站拥有庞大且日益增长的用户社群,围绕用户积累了大量的社会性数据。对数据进行深入分析,并做出正确决策,已经成为提升企业核心竞争力的关键。社会网络分析(SNA, Social Network Analysis)作为社会学中一种非常受人关注的方法,同传统的围绕能动者属性进行的统计性社会分析不同,社会网络分析认为能动者之间的关系和联系要比能动者的属性更为重要,这种视角使得它在数据挖掘和商业智能领域得到了广泛的应用。然而当代的社交网络都拥有庞大的用户数据集,如何处理大规模的用户数据成为传统方法面临的一大挑战。云计算是一种全新的IT服务模式,基于动态灵活、高度可扩展、虚拟化的大规模计算资源池,通过整合、管理调配资源,向大量用户透明地提供按需、弹性、高效用的多租户服务。云计算凭借其超大规模存储能力、超大规模分布式并行计算能力、较高的可靠性和可用性等特点赢得了科学界和工业界广泛关注并在其大力推动下,取得了巨大的发展。互联网规模的快速扩大导致了用户数据规模迅速增加,从而给社会网络分析算法和工具带来了新的要求和挑战。为了处理社会网络中的海量数据,本文提出了X-RIME:一种将强大的云计算平台Hadoop和社会网络分析法相结合的大规模社会网络分析工具,能够对大规模的数据集进行社会网络分析,具有良好的扩展性和通用性。X-RIME是一个开源的社会网络分析工具,核心是基于HDFS (Hadoop Distributed File System, Hadoop分布式文件系统)和MapReduce编程模型的,因此它具备了处理海量数据的能力,它在Map/Reduce的框架上对十几种社会网络分析算法进行了并行化与分布式化,从而实现了对互联网级大规模社会网络/复杂网络的分析。本文主要介绍了社会网络分析、云计算以及分布式处理相关技术的背景;接下来主要描述了X-RIME的整体架构、数据模型和算法模型、算法库,并重点介绍HITS (Hypertext Induced Topic Search)算法的设计与实现;最后介绍X-RIME在实际应用中的意义并举例说明。