基于分治法的聚类方法研究

被引量 : 1次 | 上传用户:jwhyyx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在数据挖掘中,聚类分析是一个重要研究方向,它研究的内容、方法和工具被广泛应用于现实生活中。比如金融诈骗、医疗事故诊断、图像处理、信息检索和生物科学等领域。近年来,聚类算法研究成为一个非常热门的研究领域并且取得了丰硕的成果。然而,随着科学技术的不断发展,数据规模不断的扩大,研究数据的属性也不单单是数值型数据,出现了分类数据和混合数据。针对高维大数集的特点数据分布具有稀疏性、噪声数据较多,当维度很高时,还可能出现“距离趋零现象”,即距给定数据点最远及最近的数据点间的距离差随着维度的增加日趋减小。由于分类属性数据缺少固定的几何模型,不能将原有的数值属性数据聚类算法应用于分类属性数据中。因此,分类属性数据聚类算法的研究引起了广泛地关注并被作为一项重要的研究内容。本文主要研究在模糊K-Means和模糊K-Modes聚类算法框架下,引入了分治法,对大数据集和分类属性数据聚类算法进行了扩充,研究成果如下:(1)基十分治法的大数据集聚类方法是将大规模数据集分成若干个子集,对每个子集同时聚类,最后对各个子集的聚类结果合并,得出最后的聚类结果。此方法克服了大规模数据数据量大、维数高可能出现的“距离趋零现象”的不足,同时由于将大规模数据分解为小规模的数据的聚类减少了聚类的复杂度。此方法在人造数据集上进行了实验,实验结果表明基于分治法的大数据集聚类方法是有效的。(2)基于分治法的分类数据集聚类方法是将分治法应用于模糊K-Modes聚类算法中,把庞大复杂的分类数据集分解为几个规模较小的子集进行聚类,最后把子集的聚类的结果进行融合得到最后的聚类结果。此方法克服了分类数据缺乏固有的几何模型而只是简单的0-1匹配相似性度量,由于数据规模庞大而造成的“距离趋零现象”的现象发生。此方法在UCI数据集上进行了验证,并与传统K-Modes和模糊K-Modes聚类算法进行了比较,实验结果说明了基于分治法的分类数据集聚类方法是有效的。本文提出了基于分治法的聚类算法,并在UCI数据集上对算法的有效性进行了验证。
其他文献
  天津地区开展孔隙型回灌研究和试验较早,取得了一定成绩。但关注孔隙型回灌井的井身结构和成井工艺主要是在近五年。通过对孔隙型储层结构分析,地面模拟,井下实际应用和回灌
目的:观察扶阳生血膏方对化疗所致的骨髓抑制的防治效果。方法:将60例化疗患者随机分为膏方治疗组和单纯化疗组各30例。2组均以西医标准化疗方案给予化疗,膏方治疗组在常规对症
女书是江永女性在对延续数千年男尊女卑封建制度下斗争反抗的生命情感产物。是一部充满传奇色彩的生活启示录。女书,不占社会主流、处于边缘化的民间艺术,是一种养在深闺人未
去商场的健身房,每次都先得去商场地下大型超市买一瓶水,然后再去三楼的健身房。因为超市比较大,所以从进入超市选购再到结完账走出超市,前后需要额外花费10分钟,这让我很苦恼,觉得
大数据时代下,能够通过对各类信息数据的快速处理和整合分析来得到最为精准的信息反馈,从而帮助各行各业完善市场决策,进而为广大的网络用户提供更加便利的服务。在这个过程
美国影片《朱诺》--奥斯卡最佳原创剧本奖获得影片,用一种似乎非典型的手法讲述了一个青春期少女未婚先孕的故事,引领着我们深入了解了青少年的成长问题,获得了无数观众的好
49天中,他冲锋在抗震救灾第一线,他和他的队伍创造了废墟上不倒的金融奇迹;25年里,他的青春和激情全部倾注给了江源玉树,塑造了一个"特别能吃苦、特别能 49 days, he assaul
稻瘟病菌引起的稻瘟病是世界水稻生产上的一种毁灭性真菌病害。该病害严重限制和威胁全球的水稻生产。生产上人们广泛地选育抗病品种防治此病,但由于该病原菌的致病性易变,新
非洲智库对新时代中国方案的认知显示了中国的经济发展和治国理政经验对非洲的吸引力,以及非洲对中国塑造不同于西方的世界秩序的期待,也彰显了中国方案的世界意义,折射了中
艾丽斯·沃克(Alice Walker,1944—)是美国当代优秀的黑人女作家。身为一名黑人女性,沃克更为关注黑人的困境、沉默的黑人女性以及生态环境等社会问题。生态女性主义试图通过