基于超网络的高维数据聚类方法研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:chen6524
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,规模庞大、结构复杂、具有多个属性的网络数据日益堆积。而这些数据的共同特点是“高维性”,如各种电子商务交易数据、Web文本数据、基因表达数据等。传统的在低维空间通用的聚类方法运用到高维空间时,通常不能取得令人满意的聚类结果。因此,寻求高效的高维数据聚类方法成为该领域的研究热点。如何克服高维数据聚类的“维数灾难”效应也成为研究难点。同样,随着网络化的发展和高维数据的爆炸式增长,出现了很多复杂的网络。这些网络包含的节点和边数量众多而且结构复杂,网络的形成也是随机的并没有遵循一定的规则,如全球最大的互联网、遗传学网络、知识网络等。在这些情况下,用普通的网络图并不能刻画出真实世界网络的特性,此时,超网络模型应运而生并能够形象的刻画出由高维数据组成的复杂网络。本文主要对基于超网络的高维数据聚类方法进行了一系列研究,主要研究工作如下:1、对超网络模型和目前主流的高维数据聚类方法进行了认真学习和探索,并形成了基本的理论体系,为后文的深入研究做基础。2、对传统聚类算法以及超网络模型进行了深入研究,在此基础上本文提出了一种改进的基于超网络的高维数聚类算法,首先,将高维数据映射到大规模超网络模型中;其次,定义超边的权重;再次,采用优化的超图划分方法分割超网络模型;最后实现高维数据聚类。这样能有效过滤掉聚类中的噪声数据,避免了传统聚类方法在降维过程中产生的弊端。实验证明,该算法具有较理想的有效性和精确度。3、认真解读MapReduce模型,并深入剖析结合MapReduce模型的聚类算法的实现过程。针对k-means算法过度依赖初始聚类中心、收敛速度慢等局限性及其在处理海量数据时存在的内存不足问题,提出一种新的针对大数据集的混合聚类算法super-k-means,将改进的基于超网络的高维数据聚类算法与k-means相结合,并经过MapReduce并行化后部署在Hadoop集群上运行。实验表明,该算法不仅在收敛性以及聚类精度两方面得到优化,其加速比和扩展性也有了大幅度的改善。
其他文献
随着通信与计算机技术的迅速发展,越来越多的关键数据被存储在计算机系统中,这些数据的丢失或损坏将对企业造成难以估量的损失,因此计算机系统的高可用性具有格外重要意义。
数据挖掘(Data Mining, DM)就是从大量数据中发现潜在规律、提取有用知识的方法和技术。近年来,数据挖掘受到了国内外的普遍关注,己经成为信息系统和计算机科学领域研究中最
交互式数字电视是当前广电系统数字化进程快速全面演进的必然途径,交互式数字电视的推广和普及最关键的条件是需要有很好的交互式应用作支持。国际上三大主流中间件标准MHP,D
知识库是专家系统的核心。由于每个领域的知识都有其自身的特点,并且学科间也存在交叉和重叠,所以知识的共享、重用是非常必要的。基于这些知识很多研究者建立了各自不同的知
医学图像的计算机辅助诊断已经成为人工智能应用领域的研究热点。本文针对人脑CT图像的计算机辅助诊断,提出了一种基于对称性的特征提取方法,完成了图像输入、特征提取、图像
以各类多媒体服务为代表的电信服务需求快速增长,使得厂商之间的竞争愈发激烈。为了在竞争中脱颖而出,各厂商纷纷开始寻求更高效、经济、快速的整体解决方案。对于他们而言面
伴随着计算机的出现和使用,出现了一种新的犯罪形式,这就是计算机犯罪。这种新型的犯罪活动正日益猖獗,给国家的发展和稳定带来了严重的危害,打击和防范计算机犯罪已经成为各
随着互联网的迅猛发展,网络的普及率越来越高,使得网络超越大众媒体成为广大群众获知、抒发自己对各大突发新闻事件、热点新闻事件等的看法、观点、态度的重要的新的渠道平台
计算机网络和信息技术的快速发展,使得我们对网络安全的要求越来越高。主动且动态地对网络进行安全防护的入侵检测是网络安全发展的一个新方向,是传统网络安全技术的必要补充
计算机动画随着计算机图形学和多媒体技术等相关技术的不断发展,已从一个新兴产业不断发展成为一个庞大的产业。群体动画作为计算机动画的一个重要分支,在动漫产业、游戏娱乐、