基于改进K—means算法的海量数据分析技术研究

来源 :微电子学与计算机 | 被引量 : 0次 | 上传用户:llongll
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对海量数据难处理的难题,利用Hadoop平台下的Map-Reduce模型,实施了一种改进的对海量数据进行并行处理的K-means算法.为了解决传统的K-means算法对初始聚类中心和聚类数敏感的问题,改进算法首先对海量数据进行多次采样,找出采样数据的聚类个数;其次,利用密度法找出采样数据的聚类中心;最后,将各个样本中心点归并得到原始数据的全局初始聚类中心点.通过在Hadoop集群上部署的实验结果表明,改进后的算法相比较于传统的算法具有高效、准确、可扩展以及良好的加速比等特性.
其他文献
针对目前大幅增加的访问密集型应用,提出了一种多核系统的DDR2SDRAM控制单元,重点介绍了该控制单元在各方面的各种优化技术,如结构、控制策略、调度策略等,同时也提出了一种
检测和分析组织或细胞中的基因表达水平常用的方法有原位杂交、Northern印迹杂交、RNA打点杂交、S1核酸酶和核酸酶A保护分析法等,这些方法除原位杂交比较敏感外,其它的方法均
儿童脑干损伤临床上较为少见.1992年6月至2001年6月,我科收治儿童原发性脑干损伤29例,疗效满意.
为了提高动态手势识别中的匹配效率,提出一种改进的LB算法.首先,对采集手势深度信息进行实时分割,并使用一种新的特征提取方法对手势进行描述.然后,引入锚定距离的概念,并将其应用到