基于Hadoop的随机森林图像分类算法研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:kernel_gdi_user
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和数字多媒体技术的快速发展,数字图像的规模不断增加。作为图像处理和应用领域的重要方面之一,图像分类技术是图像检索、目标识别、信息过滤等领域的基础。使用计算机实现对图像的自动化分析和分类,越来越受到人们的关注。此外,随机森林算法作为一种组合分类器,能够很好地被应用在图像分类问题中,并具有良好的表现。但是在海量图像分类上,随机森林也不可避免地受到时间开销过大、文件系统及处理架构落后等问题的挑战。Hadoop是当前主流的分布式计算平台之一,在大数据处理上受到广泛的重视。使用Hadoop平台部署随机森林和图像分类的过程,使其在Hadoop平台上分布式地进行,能够充分利用平台强大的计算和存储能力,提高图像分类的效率。基于以上问题,本文研究了随机森林在图像分类上的应用,并在Hadoop上设计了整体分类过程的并行化。首先,本文总结了图像分类的基本方法,着重介绍了Sift特征和BoVW特征。然后,对随机森林的基本原理进行了介绍,主要包括随机森林的基分类器及组织原理、随机森林生成和分类以及随机森林的性能指标。尤其是,针对决策树组合形成随机森林这一环节,本文详细讨论了分类器集成的原理和影响因素,提出一种通过基于混淆矩阵的相似性度量、综合分类效果删除“劣树”、保留性能较好的决策树等过程,实现随机森林模型选择的方法。实验显示,使用所提模型选择方法的随机森林具有较好的分类效果。最终,本文在Hadoop上进行了随机森林的并行化实现,也设计了图像Sift特征和BoVW模型的并行化,实验证明,基于Hadoop的随机森林图像分类算法能够缩短图像分类的运行时间,提高算法的运行效率,同时取得良好的分类效果。最后,对基于Hadoop的随机森林图像分类算法进行了总结和展望。
其他文献
学位
随着全球范围环境污染和能源危机的日趋严重,环境治理和新能源开发成为全人类社会共同关注和急需解决的问题。半导体光催化技术在解决环境污染和能源再生方面具有潜在能力。
在现代工业系统中,对生产过程中重要过程变量的控制是极其必要的。因测量技术与仪器的限制,很多变量难以做到在线精准测量,随着工业信息化、智能化的发展软测量技术被广泛应
过氧化氢是公认的绿色氧化剂。蒽醌法几乎是其唯一生产方法,而烷基蒽醌加氢是关键步骤之一。本文以Pd/SBA-15为催化剂,通过调控载体的形貌和炭修饰,以期进一步提高催化剂的加氢性能。以正构烷烃(正己烷、正庚烷、正壬烷)和烃基苯(异三丙基苯)为共溶剂低温合成了孔径增大的有序SBA-15介孔材料,再等体积浸渍制得负载型Pd催化剂,研究了孔径对2-乙基蒽醌(EAQ)加氢性能的影响规律。发现,以正己烷为共溶
背景:射血分数保留性心力衰竭(HFpEF)是发病率和死亡率最高的疾病之一,HFpEF患者占所有心力衰竭病人总数的一半。脊髓电刺激(SCS)是临床上广泛应用的治疗心脑血管缺血性疾病
水稻(尤其大穗型)存在着显著的强弱势籽粒灌浆差异现象,即位于穗上部的强势籽粒开花早,灌浆充实快,粒重高,灌浆稳定;位于穗下部的弱势籽粒开花迟,灌浆起步晚,充实度较差,粒重
竞走技术和竞走运动员的专项力量是制约竞走运动成绩的瓶颈因素。好的竞走技术不仅可以避免犯规,同时还能起到节省体力的效果。本研究通过对山东队运动员的技术表现和专项力
本文从《吴兴清远图卷》的图式、笔法、设色和创作思路来讨论对我的创作理念的影响,通过对比自然云山烟云变幻的景象与《吴兴清远图》以及研究赵孟頫在创作实践中的取舍与造
本文研究区域为塔里木盆地塔北隆起哈拉哈塘地区六连块(齐满区块、哈6区块、新垦区块、热瓦普区块、其格区块、金跃区块),研究层位为奥陶系上统良里塔格组。研究区域内除奥陶
本文基于北京大学图形学实验室“分布式虚拟现实系统ViWo”,结合计算机图形学和三维实时动态显示技术,设计了卫星仿真系统的基本架构。在卫星仿真系统的基本架构中,依托一个