论文部分内容阅读
作为数据挖掘的重要研究方向,图序列社区挖掘在社交网络等实际问题中有着广泛应用。如何精确地获得图序列中有价值的信息,以及如何加快算法在大规模数据集上的速度尤为关键。现有社区挖掘方法大多基于树状图记录的分裂算法或自底向上的凝聚算法,且多为静态挖掘而无时间方面的考虑。针对上述问题,本文提出基于编码代价的图序列社区挖掘算法GSCM,并设计出基于谱聚类的GSCM-SC算法,在Hadoop MapReduce并行计算框架下对后者进行并行化研究提出了PGSCM算法。本文研究二值图序列,首先提出了编码代价的概念,通过优化此代价函数提出GSCM算法。算法不需任何参数,并借鉴最小描述长度原理使社区划分的复杂性与社区结构的质量达到平衡。将信息压缩后再聚类以获得较好的初始划分,并利用遗传算法的随机演化和择优思想来避免被困于局部极小值。根据新图对编码代价的影响,及时判断出社区结构的变化。并在实际数据集上验证了GSCM的有效性。而后基于谱聚类提出GSCM-SC算法,并对其性能瓶颈进行并行化提出并行图序列社区挖掘算法PGSCM。利用相似度矩阵数据点间的独立性对其并行化;利用Lanczos方法解决图拉普拉斯矩阵特征向量计算的并行化;利用K-Means计算数据点与聚类中心距离及迭代的独立性对其并行化。并用多台虚拟机构成机器集群来搭建Hadoop平台,验证算法在真实数据集上的有效性及其性能提升。最后,初步探索了图序列社区挖掘灰度方面的问题,为今后提供了很好的研究方向。