【摘 要】
:
为提高大数据聚类效率,提出一种基于Hadoop框架的K均值聚类算法。采用Hadoop框架所用的MapReduce模型,将大数据划分成许多数据块。在Map阶段提出权重K均值聚类算法,对每一个
【机 构】
:
郑州工业应用技术学院信息工程学院,郑州大学软件与应用科技学院
【基金项目】
:
国家自然科学基金项目(61502204).
论文部分内容阅读
为提高大数据聚类效率,提出一种基于Hadoop框架的K均值聚类算法。采用Hadoop框架所用的MapReduce模型,将大数据划分成许多数据块。在Map阶段提出权重K均值聚类算法,对每一个数据块独立聚类,得到聚类中心和权重;在Reduce阶段提出加权融合K均值聚类算法,对Map阶段得到的聚类中心和权重进行融合,得到最终的聚类结果。在HIGGS数据集上进行聚类实验,实验结果表明,该算法在保持聚类准确率的前提下大幅提升了大数据聚类时K均值聚类算法的运算效率。
其他文献
介绍了数据融合技术、自适应加权算法和D-S证据理论算法的原理,采用自适应加权算法和证据理论算法相结合的方法,提出了一种适用于环境监测的多传感器体系结构和二级融合模型,
目的探讨正电子发射型计算机断层显像(PET)在帕金森病(PD)患者早期诊断中的影像学特征。方法选取25例原发性早期PD患者作为研究组,另选取除外神经系统相关疾病的同期检查者25例作
为实现可逆处理器的指令流水线,提出一种适合可逆指令流水的数据通路图。明确可逆指令流水线的7个阶段(即读指令、指令译码、读寄存器、运算/访问存储器、写寄存器、指令编码
关键词 护士长 护理管理 doi:10.3969/j.issn.1007-614x.2010.28.295 护士长作为最基层的管理者,必须掌握现代管理理论和方法,实现科学有效的管理,才能不断的改进和完善护理工作,提高护理质量。在护理管理活动中,护士长要注意行使一定的管理职能权利,学会应用一定的领导技巧,使护理管理的艺术性和科学性完美结合。 提高自身素质和修养,增强影响力
针对飞机地面除冰系统的远程管理和维护需求,提出基于GPRS DTU(data transfer unit)通信模块和PLC控制单元的飞机地面除冰远程监控系统方案。通过以松下PLC为主控制单元的飞机
为解决卷积神经网络(CNN)中随机梯度下降算法(SGD)的学习率设置不当对SGD算法的影响,提出一种学习率自适应SGD的更新算法,随着迭代的进行该算法使学习率呈现周期性的改变。针对CNN中Relu激活函数将CNN中的阈值为负的神经元丢弃的缺陷,设计选择Leaky Relu作为激活函数的CNN。实验验证了使用该激活函数的有效性,实验结果表明,采用上述学习率更新算法的SGD可以使网络快速收敛,提高了学
资料与方法 一般资料:本组20例均符合肩背部肌筋膜炎的诊断标准[1],其中男5例,女15例,年龄35.4±11.2岁,病程4.4±1.8年,发病前曾有局部损伤史15例,受凉史3例,不明或记载不详2例。 诊断依据:①常有外伤或劳损史;②肩背部疼痛,为自发性局部酸痛、钝痛;③在局部有明显压痛的同时伴有弥漫性疼痛;④劳累或受凉后疼痛加重;⑤肩背部肌肉僵硬,可触及局部有硬结或条索带;⑥肩背部活
本文通过对本地应用、网页应用和混合应用进行对比,分析各种应用的特征,选择适合跨平台开发的应用类型。在此基础上提出面向混合应用的跨平台应用架构,针对跨平台和特定场景需求,重点阐述开放服务的设计思路。分析了该应用架构的有点和不足,并阐述了未来跨平台移动应用的发展趋势。
本文对物联网环境中的图书馆RFID技术进行简要研究。在物联网背景下,RFID技术作为一种全新的图书馆管理技术,不但有效提升了图书馆管理水平,为读者提供了更优质的服务,同时图书馆的发展方向也随之发生改变,越来越趋向自动化。因此,希望通过本文研究可以为提升图书馆管理及服务水平提供一定助力。
CRTSⅢ型板式无砟轨道作为具有我国自主知识产权的一种新型轨道结构型式,丰富了我国高速铁路建设,也响应了中国高铁“走出去”战略。本文在搜集和总结国内外RAMS分析相关研究