基于MapReduce的GEP_K均值聚类算法

来源 :现代计算机:中旬刊 | 被引量 : 0次 | 上传用户:wwwwwwwww222
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对基于基因表达式编程的K均值聚类算法(GEP_K均值)中聚类中心生成和适应度评价环节的计算效率较低的问题,提出一种基于MapReduce框架的GEP_K均值聚类算法。采用MapReduce分布式并行编程模式,对适应度评价环节进行并行化改进,以减少算法处理时间,借助线性数据结构直接操作染色体基因,以降低染色体基因表达求解生成聚类中心的时间和空间复杂度,并在Hadoop平台上通过仿真实验对算法的性能进行验证。实验结果表明,该算法获得了较好的加速比和可扩展性,且无需额外空间开销,适用于聚类数未知的大规模数据集
其他文献
对宝鸡市1985-2004年5537个土壤样品的化验资料进行统计分析,结果表明,20a间,全市土壤钾素动态变化呈马鞍型,总的趋势是在波动中上升;区域分布状况是渭河川道和塬区最高,北部山区居
目的探讨微创外科治疗原发性脾淋巴瘤的意义、可行性及安全性。方法回顾分析该院2003年1月~2012年3月因脾占位而行腹腔镜手术,术后经病理证实确诊为原发性脾淋巴瘤5例临床资料
文章通过对热处理线圈、热处理工艺参数中的终了温度和功率参数的分析和试验,探讨了三者和焊接接头晶粒度的关系,选择了合适的线圈和热处理工艺参数,最终钢轨焊接接头晶粒度
简要描述制种生菜菌核病的症状、病原,说明其发生规律、发生条件,总结了在生菜制种生产中针对菌核病可以采取的综合防治措施。
通过对郑花5号花生进行低、中、高三个密度的矮化试验。结果表明:其株高比对照处理3个相应密度均矮12cm左右,单株结果数分别提高4.55%、15.81%、23.99%;饱果率分别提高产量11.
无线网络在几年前还高高在上,仅仅在少数高端企业用户中得到应用。而如今随着无线网络技术的普及,国内甚至部分城市的宽带运营商直接提供无线宽带路由器以及无线网卡。对于用户
随着信息技术的不断发展,多媒体教学应用于教育教学中已经成为一种常态,对于提高教学效果具有重要的辅助作用,发挥好多媒体教学的优势作用是当前小学语文教师所关心的重要问题。
风能与太阳能作为一种绿色能源,已经成为一种新兴的能源形式,构造出一个风光互补型的能源系统在现代具有很好的理论及实际意义。风光互补型能源系统在缓解电网压力、自主发电、节约传统能源等方面都可以体现出重要作用。文章针对风光互补型发电系统的结构组成、原理、并网控制等进行了分析。
过去一说到政治,许多人就会与枯燥乏味的理论说教联系在一起。可能是因为以往政治的时代感较鲜明、理论性较强,以至于在很多人眼里,学好政治太难,要考出好成绩就更难。基于这种认
架空配电线路的安全性与稳定性强弱直接影响电力系统的运行效率。由于高、低压配电线路有很多种搭设方式,且其均暴露于自然环境下,经常受到雷击的影响,往往造成供电系统的非