【摘 要】
:
随着计算机信息技术的迅猛发展,人们能够接触的信息越来越多,数据的重要性也与日俱增。而数据具有海量、多样化、异构等特征,使得传统的聚类分析方法很难满足对海量数据的分析和
论文部分内容阅读
随着计算机信息技术的迅猛发展,人们能够接触的信息越来越多,数据的重要性也与日俱增。而数据具有海量、多样化、异构等特征,使得传统的聚类分析方法很难满足对海量数据的分析和处理,因此高效的聚类技术应运而生。本文首先综述了现有的聚类技术与并行化编程模型MapReduce,随后提出了基于MapReduce的并行化聚类算法。这一算法建立在MapReduce并行框架的基础之上,可以通过分布式计算框架,更好地将原本计算复杂度较高、内存消耗较大的聚类算法直接应用于大规模数据聚类上。(1)当CURE算法在处理不均匀的海量数据时,针对随机抽样不具有代表性的问题,提出了一种健壮的并行化改进算法。该算法使用Binary-Positive算法得到原始数据的有效属性,并利用MapReduce并行框架对有效数据进行层次聚类,从而实现了正确率与效率的一种权衡。实验分析表明,改进后的CURE算法具有更高的执行效率,并且聚类效果良好;(2)对于大规模数据库中的的重复图片,本文首先使用颜色直方图细化的方法从图像中提取特征值,然后使用基于MapReduce的k-means算法对特征值进行聚类,最后再使用重复数据删除技术对图片进行清理,以达到节约磁盘空间,提高写入性能和节约网络带宽的目的;(3)本文对MapReduce和MPI的k-means算法进行了设计,并对其性能进行了深入的分析。
其他文献
邹迪光(1549-1625),字彦吉,号愚谷,南直隶无锡(今属江苏)人。万历二年甲戌(1574)中进士,万历二十年壬辰(1592)罢官后,筑愚公谷于无锡惠山之下,从此安然享受与诗书佛经、花鸟
随着改革开放的不断深入、经济水平不断提高,人们开始越来越关注社会群体的道德建设。普遍反映人民的生活越来越好,道德素质却越来越低下。遵守社会公德的少了,破坏公物的多了;见
随着西方话语理论全面深入地介绍到中国,话语理论为中国学术界的发展提出了新的机遇与挑战。从话语理论入手研究文学理论的发展变化不仅开拓了研究问题的新视角,而且有助于我
地震是全球造成人员伤亡和财产损失最大的自然灾害,目前的科技水平还不能对地震的发生进行准确的预测,也没有有效的措施可以防止地震的发生。减轻地震灾害根本途径是对工程进行
全面阐述了广西分布的20种极小种群野生植物的种群数量、分布等现状,在分析其面临的种群衰退、生境丧失等主要威胁的基础上,探讨了加强保护的对策。
目的探讨超声弹性成像对新版超声乳腺影像报告和数据系统(BI-RADS-US)评估乳腺肿物良恶性的辅助价值。方法回顾性分析已行常规超声(US)检查和弹性成像(UE)检查的862个乳腺肿
咏史怀古赋自汉代发端以来,代有新作。直至唐前,咏史怀古赋在各时期零星存在,不成气候。唐代咏史怀古赋迅速发展,在质与量上均达到一个高峰。而宋代咏史怀古赋虽在数量上不及
目的:探讨静脉溶栓治疗中使用阿替普酶后出血性并发症的发生情况及护理要点。方法:选取128例阿替普酶行溶栓治疗的患者为研究对象。观察患者用药后48 h内并发出血的发生情况并
鱼糜制品是水产品深加工的主要产品之一。凝胶性能是评价鱼糜制品品质的一个重要指标,在加工过程中,应该控制加工不同阶段不同条件对鱼糜凝胶性能的影响,添加增强凝胶强度的添加
选取1990~2005年影响宁夏农民收入因素的相关数据,建立了关于农民收入的主成分回归模型。该模型通过了各项检验,利用2005年的数据进行预测,预测值和实际值非常接近,说明该模