基于划分聚类算法的研究及其应用

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:mini8912
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是在大数据集中通过一定的算法挖掘出对人们有用的知识和信息,数据挖掘在当今时代社会生活中应用非常的广泛。聚类分析算法是数据挖掘中最为主要的研究领域之一,聚类分析是一种无监督的机器学习算法,事先不需要对数据集进行训练学习,k-means算法是一种划分式聚类算法。由于,k-means算法思想相对简单,且该算法易于实现以及对于大数据集具有较好的伸缩性等优点,在实际中应用的最为广泛。但是k-means算法也有很多不尽人意的地方。本文主要做了以下的工作:首先,针对k-means算法对孤立点和面对大数据时间复杂度高的问题,对处理的数据集构建倒排索引,然后用WAND算法在倒排索引结构中查询与中心点相似的指定个数的数据样本。这样可以减少k-means算法的时间复杂度。同时,WAND剪枝算法具有很好的稳定性,可以很好的将孤立点自动的选择出来,因此可以改善k-means算法易受孤立点影响和时间复杂度高的问题。然后,对算法的研究写出改进后算法的伪代码,并将改进后的算法应用在现实世界中真实的数据集上,并通过与传统的k-means算法做实验对比已验证算法的正确性和有效性。最后,将改进后的k-means算法应用在真实的文本数据集中,通过对该算法进行多次的聚类验证来说明算法改进后的先进性。通过多次变化算法中参数的值进一步验证算法的稳定性和实用性。
其他文献
互联网时代的到来及信息科技的高速发展,产生出各种大规模在线网络,这些网络的出现推动了复杂网络的研究。从蛋白质关系网络、科学家论文合作网络到微博关系网络、商品推荐网
计算机视觉是指对动物和人类的视觉形成机制进行模拟,对场景的图像信息处理与分析。随着计算机技术的快速进步,以及人工智能和模式识别等领域研究的不断深入,使得计算机视觉
随着真实世界的复杂网络规模变大,对于网络全局信息很难把握,一些经典的社团发现方法的时间复杂度也随之变高。因此,一种基于网络局部信息的局部社团发现方法被提出来。局部
随着云计算等新技术的快速发展、社交网络等新型互联网应用的兴起,人类获取和存储数据的规模正以前所未有的速度爆炸式增长,与大规模图数据相关的技术变革成为学术界和工业界
本文总共分为五章,第一章我们主要是介绍了随机生物数学的背景知识、基本概念和一些主要的定理。第二章主要是研究了一类具有时滞和B-D功能响应函数的随机捕食系统的动力学性
产品架构直观反应了产品设计的结果,对企业创新战略的各个环节产生直接影响,这些影响发生在成本和时间、供应链管理、商业模式创新、产品创新、竞争优势、平台领导力等方面,
高精度、高集成度电路板中布线密集,强弱信号交织,在外界强电磁场干扰下容易诱发气体放电现象。前人对于气体放电现象进行了大量的研究,总结了气体放电的主要机理和规律,然而
量价关系一直都是金融学研究的重点,学者们提出了不同的假说来解释量价关系,例如序贯信息到达假说和混合分布假说。然而在不同市场的实证分析得到了两种假说验证的混合结论,
随着3D硬件的快速发展、3D游戏的普及以及3D打印技术的成熟,三维模型被广泛的传播和应用。然而,人们在享受三维模型带来的逼真视觉感受的同时,不法分子对模型的破坏操作也变
近年来我国物流行业发展迅速,各家物流企业之间竞争加剧,物流企业为了寻求新的利润增长点,拓宽业务范围,纷纷打破传统业务格局,尝试将物流与金融结合,发展物流金融,由此,物流