论文部分内容阅读
随着信息处理技术和互联网技术的日益发展,互联网访问量逐渐增大并形成了大规模虚拟的社交网络数据。在庞大而复杂网络数据集中,有价值的信息如何被挖掘出来显得甚为重要,尤其是社区发现及相关问题的分析一直被视为的研究热点。然而,图挖掘领域仍然具有许多挑战:首先,在实际应用中绘制拓扑图的规模变得越来越大,而传统的图挖掘方法只适用于小型或中型规模的数据;其次,当拓扑图更大、更复杂时,有许多边携带着冗余和虚假的信息,甚至其噪声极易混淆图的内在结构属性,导致两个后果:一是诱导徒劳的计算;二是产生低质量的图聚类。这些挑战使得传统的图聚类挖掘效率低和精度低,图中边和点的数量巨增导致程序执行效率低和硬件资源的使用率相对较低。针对上述挑战,本文对图挖掘研究的背景和意义以及国内外的研究现状、典型图聚类方法进行了详细研究。针对网络数据结构复杂、数据量巨大的特点,本文开展了相关研究工作,提出了基于环型网络模体应用马尔科夫聚类的图挖掘模型(gmmMcanm),主要创新点包括:1、提出了一种环型网络模体判定的方法。首先,依据输入图的点集和边集,采用Erd?s-Rényi模型生成一组随机图。然后,证明向量的加法性质可以作为环型网络子图判断条件。最后,构造四元结构体,在在输入图和随机图的子图挖掘进程中,计算环型子图的两个统计特征:和,以此来判定子图是否为模体。该方法数据结构简单,图统计特征准确、快速。2、构造出一个基于模体的图聚类模型。首先,量化每条边的贡献值并求解拓扑图的边绝对贡献值关联矩阵。然后,利用动态阈值法求得的贡献阈值对该矩阵进行二值化处理。最后,模拟一个流动过程:通过每一结点添加自返和所有列的元素分别进行归一化,形成马尔科夫矩阵;对该矩阵经行迭代地扩张和膨胀操作,使其达到收敛状态;采用NMI和对聚类结果做出评价。实验结果表明,本文模型以有效地减少运算时间,在保证聚类质量的情况下提高聚类运算效率,特别当图数据集较大、较为稠密时,本文方法优势更为明显。在数据挖掘和人工智能研究领域中,图挖掘被视为重要研究方向,一直是研究庞大而复杂网络的最活跃、最有效的方法。在未来的研究工作重点是:关注不同类型的网络模体在图数据挖掘所起的作用和找到最佳的随机图构造模型。