基于MapReduce的分布式网络数据聚类算法

来源 :计算机工程 | 被引量 : 0次 | 上传用户:chenyuxun2005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
时空复杂度较高以及物理机器内存不足,会导致传统聚类算法不能有效地分析处理大规模数据网络。针对该问题,在MapReduce分布式模型的基础上,提出一种网络数据分布式聚类算法。根据MRC理论设计有限MapReduce轮数,控制混洗过程所需时间,利用M印内合并技术对网络流量进行控制,在进行中间结果合并时仅对社团合并,而不考虑社团内部节点,以控制内存开销。使用模拟生成的数据在集群中进行实验,结果表明,当数据规模和集群规模增大时,该算法具有较好的加速比和扩展性。
其他文献
随着城市化进程的加快,城市土地资源紧张,用地矛盾开始愈加严重,如何能够大规模开发城市地下空间,成为当前城市化建设的主要方向。但同时,在城市地下工程建设引发的环境工程
教学内容苏教版第十二册71~72页.教学片断一观察交流探究,初步体验策略出示例1的两幅图.师:这两个图形你们学过吗?我们能用已有的面积公式直接计算它们的面积吗?它们的面积相
电子政务是技术创新和管理与体制创新的结合,以政府为主导的电子政务的发展将为政府的管理方式带来深刻的变革。作为城市发展龙头的规划行业信息化建设,经过多年的发展,在管理和应用方面日趋成熟,但是也出现一些共性以及个性的问题。城市规划管理系统方面,正在日益与数字城管、工程监管、土地监管、数字房产、数字执法、数字市政、数字管网等信息化系统整合应用,显示出系统整合应用在城市规划建设管理与服务中的巨大优势。