论文部分内容阅读
随着互联网的飞速发展,规模庞大、结构复杂、具有多个属性的网络数据日益堆积。而这些数据的共同特点是“高维性”,如各种电子商务交易数据、Web文本数据、基因表达数据等。传统的在低维空间通用的聚类方法运用到高维空间时,通常不能取得令人满意的聚类结果。因此,寻求高效的高维数据聚类方法成为该领域的研究热点。如何克服高维数据聚类的“维数灾难”效应也成为研究难点。同样,随着网络化的发展和高维数据的爆炸式增长,出现了很多复杂的网络。这些网络包含的节点和边数量众多而且结构复杂,网络的形成也是随机的并没有遵循一定的规则,如全球最大的互联网、遗传学网络、知识网络等。在这些情况下,用普通的网络图并不能刻画出真实世界网络的特性,此时,超网络模型应运而生并能够形象的刻画出由高维数据组成的复杂网络。本文主要对基于超网络的高维数据聚类方法进行了一系列研究,主要研究工作如下:1、对超网络模型和目前主流的高维数据聚类方法进行了认真学习和探索,并形成了基本的理论体系,为后文的深入研究做基础。2、对传统聚类算法以及超网络模型进行了深入研究,在此基础上本文提出了一种改进的基于超网络的高维数聚类算法,首先,将高维数据映射到大规模超网络模型中;其次,定义超边的权重;再次,采用优化的超图划分方法分割超网络模型;最后实现高维数据聚类。这样能有效过滤掉聚类中的噪声数据,避免了传统聚类方法在降维过程中产生的弊端。实验证明,该算法具有较理想的有效性和精确度。3、认真解读MapReduce模型,并深入剖析结合MapReduce模型的聚类算法的实现过程。针对k-means算法过度依赖初始聚类中心、收敛速度慢等局限性及其在处理海量数据时存在的内存不足问题,提出一种新的针对大数据集的混合聚类算法super-k-means,将改进的基于超网络的高维数据聚类算法与k-means相结合,并经过MapReduce并行化后部署在Hadoop集群上运行。实验表明,该算法不仅在收敛性以及聚类精度两方面得到优化,其加速比和扩展性也有了大幅度的改善。