【摘 要】
:
聚类分析是数据挖掘的重要步骤之一,聚类分析能够初步探知未知数据的分布结构、属性特征,是一种无监督的数据分析过程。在信息社会飞速发展的今天,数据挖掘对于生产生活的指
论文部分内容阅读
聚类分析是数据挖掘的重要步骤之一,聚类分析能够初步探知未知数据的分布结构、属性特征,是一种无监督的数据分析过程。在信息社会飞速发展的今天,数据挖掘对于生产生活的指导意义越来越大。K-means算法是一种经典的基于划分方法的聚类算法,因其简单、高效、伸缩性好等特点得到了广泛的研究和应用。K-means算法存在一些不足,K-means算法需要给定聚类数K。算法采用随机选取初始聚类中心,导致算法结果不稳定和算法效率下降,聚类结果常常陷入局部最优。另外,在面对大量高维数据处理时,传统的K-means算法并不是适用。针对这些问题,本文作了相关研究和改进。本文做的具体工作如下:1、由于传统K-means算法无法确定K值,本文研究使用聚类评价指标来确定K值的方法,主要介绍了DB指标、CH指标和XB指标,并进行多次实验验证,发现DB指标有很好的效果。2、在初始聚类中心选取上,本文充分研究了K-means算法聚类过程,发现初始聚类中心的选取应该尽量分离,并且接近实际的类中心。本文提出了使用半径划分,依次选出K个聚类中心的改进方法。通过使用多个对比算法进行实验比较,实验结果表明,改进算法在各次实验中都对聚类效果和算法效率有很好的提升。3、在多元分析系统中,K-means算法用于聚类分析模块。本文研究了K-means算法在混合属性中计算距离的方法。另外,受单机计算能力的限制,面对海量高维数据的分析,单机无法完成聚类分析。K-means算法聚类过程具有很好的并行计算特点。因此,本文研究实现了Hadoop下的K-means改进算法。通过实验比较,在Hadoop下改进的K-means算法比传统的K-means算法运行效率有很好提升。
其他文献
在初中数学教学过程中,对于一些数学知识,通过记忆或者观察、实验、归纳、类比等合情推理手段予以“理解”,作为保证数学学习进一步顺利进行的“平台”,就是我们所指的“平台策略”现象。由于该现象十分常见,因此调查研究“平台策略”现象在教学中的情况,以及研究教师、学生对“平台策略”现象的认识、态度与应对策略显得十分有必要,为寻求合理运用这种现象,促进学生更好地学习数学的策略。本研究主要采用文献法、内容分析法
随着大量耗能建筑的兴建,建筑能耗占总能耗的比例不断上涨,被动式建筑逐渐走入了人们的视野。被动式建筑节能的技术措施中,围护结构的保温性能,是建筑能否达到被动式建筑标准的重中之重,建筑外窗更是围护结构传热的薄弱环节。由于我国气候区较多,直接套用德国被动式建筑外窗标准在实际工程中会导致一定误差。目前关于我国严寒地区被动式建筑外窗的研究较少,为了保证建筑达到被动式建筑的要求以及拥有良好的热舒适性能,严寒地
氮沉降改变了陆地-大气碳循环进程,进而对陆地森林生态系统功能结构产生了破坏。研究大气氮沉降背景条件下森林生态系统土壤呼吸及组分对氮沉降的响应,并探讨其影响具体机制,对于准确了解森林生态碳循环具有指导意义。本研究以安徽省典型森林为研究对象,从2018年6月到2019年7月,在安徽省舒城县万佛山天然麻栎林内进行模拟氮沉降实验。设置三种不同处理水平:对照(NO,0kgNhm-2a-1)、低氮(N1,50
新兴市场的蓬勃发展和环境的动态变化为中国企业生存带来了新的挑战。企业为了保证短期盈利和长期发展,应该追求探索与开发二者兼具的双元战略。因此,组织双元能力能力是企业
近年来,随着我国经济结构的转型,企业愈发寻找财务绩效增长的新引擎。企业技术创新因为能够为企业带来产品销售额上的巨大突破或者生产成本上的大幅下降,因此越来越受到企业
我国大力发展高等教育,实施教育兴国战略,但是高等教育的毛入学率一直较低,不及发达国家水平,甚至低于世界平均水平。因此,完全依靠普通高等院校全日制的教育形式是不足以解
无线射频识别RFID(Radio Frequency Identification)系统一般包含标签、读写器、认证系统含身份和授权、数据库。其中,因标签具有低成本、体积小、寿命长等优点,目前已经被广
双目立体视觉是计算机视觉领域的一个重要分支,是获得目标检测和深度信息的一个重要手段,已在工业机器人和智能驾驶系统中得到广泛应用。现有的特征检测得到正确的匹配信息较
自从马科维茨提出资产组合理论以来,证券市场风险研究一直是学术界和投资者关心的热点。虽然现阶段这方面的研究不少,但是大多数的研究都是集中于整个证券市场的风险,较少关
21世纪以来,随着经济、金融的全球化发展,大型企业、公司已经开始突破国界的限制,向境外资本市场上进军,而实现跨境经营是适应国际化环境的有效途径,可以提升自身实力以及其