论文部分内容阅读
日新月异的互联网、云计算等网络信息技术给人们的生活带来了翻天覆地的变化,人们已经逐渐踏入了大数据时代。呈指数级增长的海量数据不仅为新兴的互联网企业,更为传统行业带来了机遇与挑战。网络的复杂度与规模不仅考验着现有的IT架构,也为计算机的计算能力提出了严峻的挑战。在网络社交平台盛行的今天,各大社交网站每天都会产生上TB级别的数据。传统的单机运算难以满足海量大数据处理,随着分布式计算框架的发展,并行计算技术逐渐成熟,已经能够有效解决计算瓶颈,为海量大数据挖掘提供技术支持。从社会网络方面研究入手,社会网络的研究关键在于节点间的关系与社会属性。现实表明,真实的社会网络都呈现具有社区结构的特性,社区发现就是通过网络中节点间的连接关系挖掘社区结构的过程。Louvain算法是一种基于模块度优化的高效算法,除了时间上的优势,还能探测到层次的社区结构,不会遗漏一些小型的社区。在研究Louvain算法的基础上,针对算法耗时问题,提出了并行化的改进思想进一步对算法效率进行优化,同时保证算法的精度不变。分布式计算框架的发展推动了分布式计算的应用,但是社区发现算法在分布式计算方面的应用却很少。面对具有海量数据的大规模复杂社交网络,利用分布式计算框架能进一步提高算法的运行效率,社区发现算法与分布式计算框架的结合必是社区发现未来的研究热点。Spark分布式计算框架对社区发现算法这类需要大量迭代计算的算法有着很好的适应能力。将改进后的算法在Spark分布式平台上实现,进一步提高了运行效率。针对分布式计算中不同计算节点之间消息传递滞后产生的社区互换等问题,提出了连通图的方法加以改进。