基于最大最小距离法的多中心聚类算法研究

被引量 : 0次 | 上传用户:shmi1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘(Data Mining)又称为数据库中的知识发现(简称KDD),是从海量的数据中挖掘出隐含的、先前未知的、对决策有潜在价值的知识和规则。它是一门新兴的交叉学科,汇集了来自机器学习、模式识别、数据库、统计学、人工智能等领域的研究成果。聚类分析作为数据挖掘系统中的一个模块,既可以作为一个单独的工具以发现数据库中数据分布的深层信息,也可以作为其他数据挖掘分析算法的一个预处理步骤,因此研究如何提高聚类算法的性能具有重要的意义。K-means算法是一种典型的基于划分的方法,该算法的优点是思想简单易行,时间复杂性接近线性,对大规模数据的挖掘具有高效性和可伸缩性。但是该算法存在如下缺点:聚类个数K需要预先给定;算法对初值敏感;算法易陷入局部极小,并且一般只能发现球状簇。本文重点针对K-means算法对初值的依赖性,以及采用误差平方和函数作为聚类准则的局限性,提出了一种基于最大最小距离法的多中心聚类算法(Multiseed Clustering Algorithm based on Max-min Distance Algorithm,MCAMDA)。MCAMDA结合了多次抽样技术,在抽样聚类获得的备选聚类种子集合上再次利用最大最小距离法寻找到最佳初始聚类种子,较大程度上避免了初值选择的随机性。该算法实现了输入参数的知识领域最小化,即不要求用户事先给出聚类的个数。MCAMDA算法不同于K-means算法,它是一种新的多中心聚类算法,先暂时将大簇或者延伸形状的簇分割开,然后通过应用DBSCAN算法的小类合并策略将需要合并的小类进行了合并,体现了“任何一个延伸状或者较大形状的簇可以用多个聚类中心来联合代表”的思想。为了测试改进算法的聚类性能,本文将其与K-means算法在多个数据集上进行了对比实验,验证了改进算法在聚类质量和聚类稳定性上都远优于K-means算法。对MCAMDA算法的时间效率进行分析,发现DBSCAN算法类的扩展漫无目的,不适合小类合并阶段的具体应用。因此提出一种改进方法,使类的扩展有方向引导,并辅以实验表明改进后的算法在小类合并过程中能取得较高的时间效率。
其他文献
随着信息技术的发展和教育改革的深入,教师专业化发展的号角在世界各个角落吹响,Blog的到来是否为教师专业化发展提供了一条新的途径?基于这样的思考,本文以两位小学教师的教育B
背景和目的: 肌萎缩侧索硬化(amyotrophic lateral sclerosis,ALS)是一种既累及上运动神经元(大脑、脑干及脊髓等),又侵袭下运动神经元(颅神经核和脊髓前角细胞)的神经系统变
研究在新形势下中学教师的新变化、新特点,加强教师管理,充分调动其积极性,建设一支适应形势、具有开拓精神、能够担负起新世纪教育重任的教师队伍,无疑是每个中学管理者亟待解决
随着预应力混凝土技术的不断发展,由于其良好的抗裂性、耐久性等优点,预应力混凝土结构在建筑中的应用越来越广泛。然而,和处于冻融环境下的普通混凝土结构一样,在自然界冻融循环
本文旨在从女性主义批评角度,结合叙事学“故事”、“话语”两个概念,通过对中国现当代文学性别叙事中典型“恶女人”形象,作一些比较、梳理与研究,以期达到对人物形象内蕴,及文本
通过症状自评量表(SCL-90)和自编的心理健康一般性调查问卷对天津市四所小学343名教师进行调查,发现小学教师的职业压力较大,心理健康状况不容忽视。小学教师在强迫、躯体化、抑
目前,PLC课堂教学比较突出的问题是学生学习比较被动,课堂参与的热情不高。本文通过分析影响课堂教学效果的因素,提出以学生为中心指导课堂改革,从教材选定、教学方法方面探
童话无论是作为一种文体,还是一种精神质素,一直都是我们精神和现实生活的重要组成部分和影响力量,它指代的文体和精神的固定内涵的形成也都经历了很长的历史过程。童话及其代表
随着知识经济时代的到来,知识、技术已成为企业资源要素中最重要的要素之一,知识、技术的创造、利用与增值,最终要依靠发挥知识型员工内在积极性来实现,而知识型员工内在积极
在经济飞速发展的今天,有人说,中国是世界的工厂。50年前的今天,人们说,日本是世界的工厂。无可厚非的是,不同的国家在历史发展的过程中遵循着相同的经济成长轨迹——从大量