一种K-means聚类改进算法研究及应用

来源 :湖北工业大学 | 被引量 : 0次 | 上传用户:suxinlan2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,在巨大的数据信息当中找出自身最为关注的信息已经成为当前的一个极为重要的研究热点,随着计算机网络技术、信息数据的日益膨胀以及数据库技术的不断发展。,在此基础上,数据挖掘技术的应运而生,引起了信息产业界的极大关注。聚类分析技术是一种将数据集划分为多个簇的技术,确保同一个簇中的数据特征尽量保持一致,不同簇间的数据特征尽量相异的一项技术。数据挖掘中的聚类技术种类繁多,众多算法中,K-means算法由于流程简洁,收敛性较好得到普遍的应用。除此之外,还包含注入层次聚类算法、基于约束理论的聚类算法、在高维数据中应用的聚类算法等等。在传统的数据挖掘领域应用K-means算法在数据采集和分析过程中的稳定性难以得到保证,因为聚类结果对初始中心选取的敏感性较高,存在k值确定困难的缺点。
  本文以K-means算法为研究对象提出了一种基于K-means算法的改进型聚类算法,该算法保留了传统K-means算法的优势,同时改进型的算法原理同K-means算法相似,在本文中通过运用改进型K-means算法来完成对NBA球员的技术统计分析。除此之外,就K-means算法在应用过程中存在的初始聚类中心依赖性强等问题进行了完善,经改进的聚类中心选取更加灵活,同时通过对初始聚类中心选取的优化,提高了K-means算法的聚类效率以及聚类结果的稳定性。最后对改进型K-means算法进行了详细描述,并通过演示清晰的呈现了算法的执行过程,最后基于算法的执行过程和结果对传统K-means算法的优缺点进行了说明。为了对改进型的K-means算法算法实际运算效果进行验证,本文以球员数据对象进行分类,以NBA球员统计数据为基础,采用对NBA球员数据的聚类分析,验证了改进后的K-means聚类算法的分类的有效性,利用JAVA作为开发语言,通过对比分析传统K-means算法结果,对比结果显示改进后的K-means聚类算法相较于传统的K-means聚类算法具有更好的聚类效果,通过初始聚类中心的选取可有效改善算法的收敛性,达到更加的聚类效果。
其他文献
本文以树麻雀(Passermontanus)为对象,通过研究四川盆地内、外种群形态特征差异与遗传结构,探讨四川盆地的陆地岛屿效应。我们测量了分布于四川盆地及周边地区的558只成年树麻雀的7个形态特征并对其与海拔、纬度的相关性进行了分析,结果显示:  (1)按照地理区位划分的四川盆地北部、西部、东南部以及四川盆地内等多个树麻雀种群在体质量(P<0.05)、翅长(P<0.01)有极显著差异,跗跖(P<
学位
花臭蛙(Odorranaschmackeri)隶属蛙科(ranidae)、臭蛙属(Odorrana),是中国臭蛙属中分布最广泛的物种。该物种在皖南与凹耳臭蛙、武夷湍蛙、大绿臭蛙等物种同域分布。为比较分析小尺度地理格局中,不同物种对景观及其变化的响应策略。本实验利用线粒体Cytb基因作为分子标记,对皖南花臭蛙6个局域种群132个样本的遗传变异初步研究,并将研究结果与同域分布的其它蛙类进行比较分析,探
学位
世界屋脊青藏高原是全球生物多样性热点地区之一,对该地区的植物适应性进化和资源可持续利用研究至关重要。而最近发现的模式植物西藏生态型拟南芥(Arabidopsisthaliana(Tibet-0))被证明是一个较为古老和分布海拔最高的拟南芥生态型,作为植物学研究体系最成熟的模式植物,西藏拟南芥的发现将为青藏高原地区的植物表型适应性以及分子进化机制研究提供一个新的模式系统和参照。另外,精油作为植物响应
学位
涡虫是扁形动物门的代表动物,在生物的进化历程中占据着重要的地位,因为其强大的再生能力,已经成为研究发育、进化、再生与免疫的重要模式动物。肌球蛋白是一种多功能的球类蛋白,作为细胞骨架的重要组成成分,主要功能是为细胞的各种生理活动提供所需的力。肌球蛋白调节型轻链(regulativelightchainofmyosin)对肌球蛋白的活性具有调节作用。本文克隆了东亚三角涡虫(Dugesiajaponic
Wolbachia是一种广泛感染节肢动物的胞内共生细菌,其主要分布于昆虫的生殖系统和神经系统。前期研究主要集中在Wolbachia感染对宿主生殖系统的影响,研究发现Wolbachia能够通过多种机制调节宿主的生殖方式,如细胞质不亲和(cytoplasmic incompatibility,CI)、孤雌生殖、雌性化和杀雄等,这些方式能增加其在雌性宿主种群中感染频率,利于自身从宿主母体到子代的传播。然
开发大型、高效、清洁、投资低等性能的超临界和超超临界燃煤机组是解决我国电力短缺、能源利用率低和环境污染严重的最现实、最有效的途径之一。利用数值模拟来研究锅炉燃烧和NOx生成过程,研究低NOx燃烧技术,用来指导实际工程和设计,已经得到了广泛的关注和应用。本文采用商业软件FLUENT对国产首台超临界华能沁北600MW锅炉进行了炉内流动、传热、燃烧和NOx生成过程数值模拟研究,得出了炉内烟气温度场、速度
粗糙集理论作为基于粒化机理的数据建模中的一个重要模型,在智能信息研究领域中有着广泛的应用,通常可用来进行特征选择和规则提取.复杂数据的信息粒化是粗糙集数据建模的前提,是信息预处理的关键步骤.聚类分析是数据挖掘中一类重要的无监督学习方法,目前已被有效应用于复杂数据的信息粒化中,并已经取得了可观的研究成果.目前,基于聚类分析,针对符号型数据的信息粒化方法也已经成为一个重要的研究热点,引起了众多研究者的
学位
生物特征识别作为一种重要的身份认证技术,已经被广泛应用于监控、取证和刑事侦查。传统的身份验证系统需要提供令牌或密码,而令牌容易丢失,长密码和密钥难以记录或容易忘记,相比之下,生物特征系统可以提供更安全的解决方案。此外,随着法医学和安全领域(如访问控制、移民和商业应用)对安全系统的安全需求不断增加,生物特征识别系统引起广泛关注。生物特征可以分为两类,即生理特征和行为特征。生理特征包括面部、指纹、耳朵
校园数据库中包含了大量的与学生学习生活有关的数据,如何对校园数据进行挖掘与分析,发现隐藏在其中的有价值的知识是目前教育界以及学术界普遍关注的问题。目前,关联规则挖掘技术被广泛用于校园数据分析之中,但仍存在以下两个问题。首先,大部分的工作只限定于单一层面的研究,比如只研究学生的消费数据,或者是只研究学生的成绩数据,对于学生行为习惯与成绩的关联性之间的研究却不多,然而如何从校园数据中挖掘出有利于提高学
学位
在国内的高校中,信息化高速发展,基本上所有高校都已建立适合校内教务管理的教务管理系统,这些系统一般是基于B/S结构,在一定程度上突破时间和空间的限制,方便了在校师生进行教务信息处理,但基于B/S结构的教务系统仍受限于计算机网络环境,系统用户不能做到随时随地访问系统。随着智能手机和移动互联网的高速发展,越来越多的人在日常生活和工作中选择使用移动设备查询和获取信息。在这种前提下,基于Android系统