【摘 要】
:
随着数据的爆炸式增长,聚类研究作为大数据的核心问题之一,正面临计算复杂度高和计算能力不足等诸多问题。提出了一种基于Hadoop的分布式改进K-means算法,该算法通过引入Cano
【机 构】
:
电子科技大学信息与软件工程学院,成都康赛信息技术有限公司
【基金项目】
:
国家科技支撑计划(2012BAH87F03);中央高校基本科研业务费(ZYGX2014J065)
论文部分内容阅读
随着数据的爆炸式增长,聚类研究作为大数据的核心问题之一,正面临计算复杂度高和计算能力不足等诸多问题。提出了一种基于Hadoop的分布式改进K-means算法,该算法通过引入Canopy算法初始化K-means算法的聚类中心,克服传统K-means算法因初始中心点的不确定性,易陷入局部最优解的问题。本算法在Canopy(罩盖)中完成K-means聚类,并在Canopy间完成簇的合并,聚类效果稳定,迭代次数少。同时,结合MapReduce分布式计算模型,给出改进后算法的并行化设计方法和策略,进一步通过改进相似度度量方法,将该方法用于文本聚类中。实验结果证明该算法具有良好的准确率和扩展性。
其他文献
本文分析了利率市场化对商业银行贷款定价的影响,然后在对比分析几种主要贷款定价方法的基础上,对客户关系贷款定价的内涵、模型框架和系统架构进行了探讨,并且详细剖析了其
<正>长期以来,犯罪嫌疑人的口供(供述和辩解)在侦查工作和刑事案件证据体系中占有重要的位置犯罪嫌疑人的供述心理,特别是供述障碍与动机是讯问人员非常重视的一个问题。虽然
随着经济社会的迅速发展,城市化进程的加快,生态城市建设越来越受到人们的关注因此,如何充分利用黄河水资源,充分利用现有的邙山供水设施,如何盘活国有资产,以最小的代价,最
从全面风险管理的视角探讨企业的风险预警机制,建立了全面风险辨识、风险预警模型、风险预警评估、风险预警报告、应对策略选择的风险预警理论框架,并根据该理论框架提出了数
针对现实教学中备课存在的问题,从求"精"、求"效"的发展性阅读备课制度改革入手,实行"互动式"集体备课模式。倡导"共性相承,个性张扬"的理念,通过教师的精心策划,达到事半功
光纤光栅点式水压传感器是应用光纤受外力变形时,射入光纤的紫外激光的波长会发生改变并被光栅反射回来原理,利用光栅变形传感器相对某一点水压力的瞬时压力值测试,扩展光纤
我国物权法第一百零六条确立了善意取得制度,其中关于善意要件的证明,因学界及实务界认识不尽一致,尚存一定证明难度。笔者认为,以法解释学分析为路径,善意要件的证明责任可
网络营销作为企业整体营销战略的一个重要组成部分,对企业整体营销战略的实现具有不可估量的价值。针对我国中小企业网络营销现状,分析了目前我国中小企业网络营销存在的问题
<正>讯问,是讯问人员用于犯罪嫌疑人,借以引起其某种心理变化,从而达到讯问目的,完成讯问任务的手段。侦查讯问是一种特殊的侦查措施,是刑事诉讼的重要环节,同时也是重要的取
本研究为探讨具体类别归纳推理与一般类别归纳推理的差异设计了两个实验研究。研究一,从影响包含谬误效应的主要因素角度来探究两种形式的类别归纳推理的差异,为此进行了两个