【摘 要】
:
聚类分析在数据挖掘领域中占有重要的一席之地,主要是用来发现数据对象在空间中的分布结构。根据数据对象间的相似度量,聚类算法将数据对象集合分割成若干个簇,在同一个簇中
论文部分内容阅读
聚类分析在数据挖掘领域中占有重要的一席之地,主要是用来发现数据对象在空间中的分布结构。根据数据对象间的相似度量,聚类算法将数据对象集合分割成若干个簇,在同一个簇中的数据对象有比较高的相似性,但是在不同的簇中的数据对象的相似性就比较小。在现实世界中,数据簇之间往往是重叠的。换句话说就是,数据簇之间没有明显的界限,它们之间往往存在交叉或重叠的数据对象,这些数据对象可以属于多个簇,Overlapping聚类算法就是为了将这些Overlapping数据对象更好地划分,并找到它们。本文提出了几种关于表述数据簇与数据簇之间相似性的方法,并在这些方法上建立了关于Overlapping聚类框架。该框架主要包含三个部分:聚类、选择和融合。在聚类部分中,所有的聚类算法都可以使用。在选择部分中,数据簇之间存在Overlapping数据对象的簇将会被选择出来,本文提出了基于软聚类和硬聚类的选择方法。在融合部分中,将被选中的簇进行融合,Overlapping的数据对象将会被划分到两个或多个簇中。此Overlapping聚类框架的建立,使得所有聚类算法都可以使用,这对表征数据对象在空间中分布是有好处的,此框架在处理数据时更加灵活。它可以可以使之前的非Overlapping聚类算法,在此框架下发挥作用,来解决Overlapping聚类问题。在面对大数据时,无论是在数据吞吐或者运算能力方面,单机串行的聚类算法都无法有效地满足实际需求。我们基于MapReduce编程模型对Overlapping聚类算法进行并行化设计与实现,并在Hadoop平台上处理大数据集。通过实验分析,基于MapReduce编程模型的并行聚类的处理大数据的效率比较高。
其他文献
推荐系统在数字图书馆中有着重要作用。通过帮助用户发现他们感兴趣的图书,推荐系统既充分利用了数字图书馆的资源,也更好满足了用户的阅读需求。传统基于内存的推荐方法是有效
在现代生活中,每天都有大量的视频数据不断涌现,人们怎样才能从数量众多、类型多样的视频数据中找出自己所需的视频片段已经成为一个新的问题。但是由于视频数据信息量大,内容复
无线传感器网络是当今物联网的关键技术之一,是一种多跳无线自组织网络,由大量的微型传感器节点所构成。它的主要特点是低功耗、低成本、分布式和自组织,但是网络中的每一个
EDF是1973年由海外学者提出的一个实时调度算法,作为一个经典算法,它出现在很多的实时系统教材中,至今尽管己跨越了数十年的历史,但关于EDF的动态性能方面,仍有许多问题有待
IB方法(InformationBottleneck)通过对数据的压缩来分析其中所蕴含的内在模式,在机器学习、模式识别等众多领域中取得了成功的应用。多变量IB方法(MultivariateInformationBot
随着信息技术的飞速发展,人们对客观事物的认知不断增强,无线传感器网络(Wireless Sensor Network,WSN)作为反映客观世界的媒介逐渐被重视起来。通常,无线传感器网络中节点是大规
随着计算机技术的发展,软件系统的复杂性越来越高,为了能够适应开放动态的网络环境,融合异构的硬件资源以及满足不断变化的用户需求,要求软件系统能够在运行时自主地感知自身
无线传感器网络(Wireless Sensor Network)即由部署在监测区域内的大量传感器节点利用自组织能力构建而成的通信网络。随着信息社会的发展,数据的获取能力在相关领域中的作用
在这个科技高度发达的现代社会,我们每天都会与很多数据打交道,有些我们可以很容易从中获取信息,但是有些大规模的复杂数据,我们很难直观的获取到数据背后影藏的有效信息。于
随着三维模型精度的不断提高,三维模型的数据量在飞速的增长,这无疑对计算机处理与传输三维模型带来了很大的压力。三维模型的简化和多分辨率建模是处理以上问题的一个有效的途