【摘 要】
:
数据的快速增长,为我们提供了更多的信息,然而,也对传统信息获取技术提出了挑战.这篇论文提出了MCMM算法,它是基于MapReduce的大规模数据分类模型的最小生成树(MST)的算法.它
【机 构】
:
中国科学院深圳先进技术研究院,中国科学院大学
论文部分内容阅读
数据的快速增长,为我们提供了更多的信息,然而,也对传统信息获取技术提出了挑战.这篇论文提出了MCMM算法,它是基于MapReduce的大规模数据分类模型的最小生成树(MST)的算法.它可以看做是介于传统的KNN方法和基于聚类分类方法之间的模型,旨在克服这两种方法的不足并能处理大规模的数据.在这一模型中,训练集作为有权重的无向完全图来处理.顶点是对象,两点之间边的权重是对象间的距离.这一距离,不同于欧几里得距离,它是一个特定的距离度量.这样,可以找到图中最小生成树集,其中,图中每棵树代表一个类.为了降低时间复杂度,提取了每棵树中最具代表性的点来代表该树.这些压缩了的点集,可以通过计算无标签对象和它们之间的距离,来进行分类.MCMM模型基于MapReduce实现并且部署在Hadoop平台.该模型可扩展处理大规模的数据,是因为Hadoop支持数据密集分布应用,并且这些应用可以和数以千计的节点和数据一起运作.另外,MapReduce和Hadoop能在由商品机组成的集群上很好的运行.MCMM模型使用云平台并且通过使用MapReduce和Hadoop进行云计算是有益处的.实验采用的数据集包括从UCI数据库得到的真实数据和一些模拟数据,实验使用了4000个集群.实验表明,MCMM模型在精确度和扩展性上优于KNN和其他一些经常使用的基础分类方法.
其他文献
0引言 近年来,对老年股骨颈骨折的病人越来越倾向于手术治疗。全髋手术虽然疗效确切,但手术本身作为一种刺激,会使患者在围手术期产生一系列反应,进而影响患者术后康复。因此,
奥巴马执政以来,面对日益多极化的国际格局与美国国际地位的相对衰落,美国政府对外战略被迫转向多边主义,通过运用“巧实力”来维护美国的全球霸权地位.经济活跃但政治军事情
医用物理学是医学院校的基础课程,对我国现代化医学人才的培养有着十分重要的作用。但目前医学院校的物理教学方式仍然是枯燥陈旧,其教学内容滞后于医学前沿。本文对医用物理学
潘懋元教授是中国高等教育学的主要创始人,是"让中国的高等教育研究走向世界"的主要推动者,先生对我国高等教育学科建设、高等教育发展规律以及高等教育体制改革等学术领域均
在课堂教学中,以小组或全班的形式经常开展一些讨论,不但可以提高教学质量,而且有助于学生创新意识的培养。实践证明,合理有效的讨论不仅能充分调动学生学习的积极性,而且能
光学薄膜是现代光学仪器和光学器件的重要组成部分,它在各类光学系统中的应用极为广泛。传统的光学薄膜是以光的干涉为基础,并以此设计和制备增透膜、高反膜、滤光膜、分光膜
现代教育强调“知识结构”与“学习过程”,目的在于发展学生的思维能力,而把知识作为思维过程的材料和媒介.数学知识可能在将来会遗忘,但思维品质的培养会影响学生的一生,思
数学创造力的培养决不是少数学生的事,而是关系到整个民族文化素质提高的大事.创意课堂、关注发展、体现过程、注重思考,旨在培养学生的创新意识和创新能力.在教学中把问题意
化归思想就是化未知为已知、化繁为简、化难为易.常见的化归问题有如将分式方程化为整式方程,将代数问题化为几何问题,将四边形问题转化为三角形问题等.实现这种转化的方法有
非理性主义作为一种哲学思潮,随着经济社会的发展而逐步形成,盛行于资本主义社会,即有其存在的合理性,又有其天生的缺陷。本文介绍了非理性主义的产生、发展,从积极和消极两