基于MapReduce的可扩展协同聚类算法的研究与实现

来源 :江西师范大学 | 被引量 : 0次 | 上传用户:zhangbingcug
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本聚类作为数据挖掘领域的主要分支之一,在许多领域占据了重要的地位。人们在处理数据时,经常遇到一些没有标签的数据,而人们往往需要了解这些数据间的关系,以便应用到实际情况中。为了解决这类问题,聚类算法应运而生。它是一种无监督的学习算法,通过主动学习数据内部的结构,分析出数据的类别属性,将相关的数据聚集到一起,不相关的数据分开,达到人们需要的结果。由于数据的表现形式多种多样,聚类的算法也是种类繁多的。在文本聚类中数据用向量空间模型表示,它把数据放在了一个向量空间中,通过距离的远近来判断数据间的相关性。然而,这类算法通过数据本身的维度来度量聚类的效果,忽略了数据内部的相关性,即本文中的特征的相关性。为此,本文研究了基于数据和特征两个维度的协同聚类算法,发现该算法能取得比单一维度聚类更好的聚类效果。随着信息技术的高速发展,海量数据、大数据的概念变得耳熟能详,面对如此庞大的数据,原来的串行算法已不能满足人们对算法速度和准确率的要求,于是人们逐渐把眼光转向并行计算。随着计算机硬件的发展,并行在多核的单机上也可以实现。然而这些并行模式大多是基于机器本身的,在面对规模越来越庞大的海量数据时,无法在单机上完成数据的并行计算。与此同时,Google提出的MapReduce并行模式,能在普通商用机器上部署集群,具有健壮性强,易伸缩的优点,受到广大并行计算研究者的欢迎。本文在研究协同聚类算法的过程中,采用MapReduce编程模式对协同聚类算法进行改进。在实验室中利用Hadoop搭建的MapReduce集群上运行并行协同聚类算法,该算法是基于最小化协同残差平方和的目标函数设计。文中通过实验的运算时间和加速比验证了算法的可扩展性。
其他文献
随着企业信息化的不断发展,各式各样的服务不断涌现,企业服务总线的应用越来越广泛。在企业服务总线的实际应用过程中,服务的交互往往是在运行时动态决定的,通常不仅是简单的双向
随着软件行业快速的发展,国内外的软件企业对软件的管理日趋成熟。软件成本估算越来越受到这些企业的重视。从软件自身的因素考虑,软件规模是软件成本最重要的组成部分。因此正
利用脑肿瘤图像处理技术进行计算机辅助诊断,不仅能够大幅度提升医生对脑肿瘤患者进行颅脑检查的效率和准确度,而且对于提高脑肿瘤患者的治愈率和存活率也有着重要的临床意义
无线传感器网络是由大量资源受限的传感器节点通过无线方式自组织构成的网络。它能够应用在恶劣甚至人们无法靠近的危险环境中,如防恐、野生环境监测、军事侦察、地震探测、矿
云技术的快速发展使得人们能够越来越方便的获得计算和存储资源。而智能手持设备的普及,使得人们能越来越方便的获取和产生数据,由于智能手持设备本身的局限性,使得人们越来越多
森林是自然场景的重要组成部分,森林场景的模拟在虚拟现实领域中占有重要地位,但由于森林场景中树木模型复杂、数量众多,且树木受风力作用后的动态效果涉及到复杂的物理力学系统
随着国家信息化建设的推进与发展,信息安全成为信息化平台与信息系统必须要考虑与面对的问题。用户在享用信息化带来的工作效率提升的同时,伴随着个人信息被盗用,个人隐私被的风
作为情感计算重要分支的语音情感识别,通过利用计算机及其它辅助设备分析和提取语音信号的情感特征参数,进而分析情感状态及状态的变化规律,从而更大贡献地提高人机交互技术的智
目前的许多软件系统需要为客户提供不间断的服务,软件在线演化技术因此成为当今软件维护领域的一个重要研究课题,能否提供不间断的服务正在成为人们衡量软件系统的一项重要指标
获取物体的三维结构和三维信息在工业测量、产品控制、物体识别、逆向工程等多个领域中都有广泛的应用,也因此有很多关于三维重建的方法,之前关于该方面的研究主要集中于基于点