基于MapReduce的分布式网络数据聚类算法

来源 :计算机工程 | 被引量 : 0次 | 上传用户：chenyuxun2005

【摘要】

：

时空复杂度较高以及物理机器内存不足，会导致传统聚类算法不能有效地分析处理大规模数据网络。针对该问题，在MapReduce分布式模型的基础上，提出一种网络数据分布式聚类算法。根

【作者】

：

陈东明刘健王冬琦徐晓伟

【机构】

：

东北大学软件学院,阿肯色大学小石城分校信息科学系

【出处】

：

计算机工程

【发表日期】

：

2013年7期

【关键词】

：

聚类算法分布式聚类 MapReduce编程模型数据挖掘社团结构 clustering algorithm distributed clustering M

【基金项目】

：

辽宁省自然科学基金资助项目（20102059）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

时空复杂度较高以及物理机器内存不足，会导致传统聚类算法不能有效地分析处理大规模数据网络。针对该问题，在MapReduce分布式模型的基础上，提出一种网络数据分布式聚类算法。根据MRC理论设计有限MapReduce轮数，控制混洗过程所需时间，利用M印内合并技术对网络流量进行控制，在进行中间结果合并时仅对社团合并，而不考虑社团内部节点，以控制内存开销。使用模拟生成的数据在集群中进行实验，结果表明，当数据规模和集群规模增大时，该算法具有较好的加速比和扩展性。

其他文献

城市地下工程建设中的环境工程地质问题及预防工作研究

随着城市化进程的加快,城市土地资源紧张,用地矛盾开始愈加严重,如何能够大规模开发城市地下空间,成为当前城市化建设的主要方向。但同时,在城市地下工程建设引发的环境工程

期刊

地下工程环境工程地质预防工作城市化

转化,在策略的体验中生成——《解决问题的策略——转化》教学片断及反思

教学内容苏教版第十二册71~72页.教学片断一观察交流探究,初步体验策略出示例1的两幅图.师:这两个图形你们学过吗?我们能用已有的面积公式直接计算它们的面积吗?它们的面积相

期刊

教学片断《解决问题的策略——转化》乘除法长方形

浅谈业务联动在城市规划行业方面的应用

电子政务是技术创新和管理与体制创新的结合,以政府为主导的电子政务的发展将为政府的管理方式带来深刻的变革。作为城市发展龙头的规划行业信息化建设,经过多年的发展,在管理和应用方面日趋成熟,但是也出现一些共性以及个性的问题。城市规划管理系统方面,正在日益与数字城管、工程监管、土地监管、数字房产、数字执法、数字市政、数字管网等信息化系统整合应用,显示出系统整合应用在城市规划建设管理与服务中的巨大优势。

期刊

城市规划业务联动信息化电子政务city planningbusiness interactioninformatizatione-government

基于MapReduce的分布式网络数据聚类算法

其他学术论文