基于Hadoop平台的视觉数据聚类研究与实现

被引量 : 0次 | 上传用户:shuguang_888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Hadoop是解决大数据存储和分析问题的分布式模型。聚类算法能通过聚类生成码书,对视觉数据进行特征表达。如何将聚类算法架构在分布式模型上完成对大规模数据的聚类是科研和生产中的重要问题。针对大规模视觉数据聚类问题,本文设计并实现了基于Hadoop模型的视觉数据聚类算法,提高了视觉数据聚类的效率。本文首先介绍了视觉特征,分析了在视觉信息聚类生成码书过程中存在的维数灾难问题。然后,本文详细分析Hadoop分布式模型,设计并实现了基于Hadoop模型的视觉数据K-Means、GMM聚类方法,解决了在视觉信息数据生成码书过程中存在的维数灾难问题。通过Map/Reduce算法实现视觉数据的分布式聚类,很大程度上提高了视觉信息数据处理的效率。在这些研究基础之上,本文通过在不同规模实验数据和不同规模集群上设计实验和分析实验结果,得出了基于Hadoop框架的视觉数据聚类算法对大规模数据的聚类效率更高、加速比更大、可扩展性更强的结论。
其他文献
设计并实现了一种基于CANBUS总线的智能乳化液泵站控制系统。以可编程控制器为控制核心,通过CANBUS总线与上位机通信实现人机界面,与组合开关箱通信实现对其控制,与在线监测
中西猫文化具有一定的共性,同时又有各自鲜明的个性。英语和汉语中包含很多含有猫形象的习语,如何正确理解和翻译猫习语成为翻译中的重点和难点。在翻译猫习语时,译者要根据
乳腺多发纤维瘤是常见的乳腺良性肿瘤,其病因尚未完全明确,但诊断相对容易。该病多见于年轻女性,手术是治疗的首选方法,但若手术方式不当,术后常会引起乳房外观的破坏。应根
随着能源的日益短缺和环境的严重污染,新能源汽车有了一个良好的发展机遇,电动汽车成为新能源汽车领域的发展热点。车载充电电源作为电动汽车的动力电池组充电装置,具有体积小、
据《中国经营报》报道:2003年,我国餐饮营业额约为4369亿人民币,2004年预计将超过6000亿人民币。业内人士预测,中国餐饮业将成为未来永不饱和的黄金产业。另据报道,在欧英及
目的:通过对护理服务机构和老年护理院的数量、床位设置、床位使用率、平均住院日、人员配备、设备配备、政府投入及是否列入医保定点等情况调研,为护理服务机构和老年护理院
针对基于二极管箝位型(NPC)逆变器主拓扑的矿用三电平静止无功发生器(SVG)直流侧中点电压平衡与死区效应问题进行了理论分析,提出了一种基于调整驱动脉冲的中点电压平衡和死
Shor算法是目前最常用的算法之一。主要是基于Shor量子算法分解效率不高的问题作出的一些算法上的优化。通过对Shor算法的进一步分析,提出优化思想及对优化过程进行理论论证
目的评价腹腔镜可调节捆扎带胃减容术及袖状胃切除术治疗病态肥胖症的效果。方法2006年3月至2007年7月中国医科大学附属盛京医院对23例肥胖病人施行腹腔镜减肥手术,其中17例
用于政府采购的资金,不管是预算内资金还是预算外资金,从性质上说都是财政性资金,其所有权都属于国家,为切实加强对资金使用的管理监督,提高财政资金的使用效益,应当将政府采