基于多支路卷积网络的图像识别和语义分割研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:doublexiu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着近几年的发展,深度学习方法在许多人工智能应用领域取得了极大的突破,例如计算机视觉和自然语言处理。其中在计算机视觉领域,不同于传统方法依赖的手工特征提取,深度学习由于其端到端训练的特点,和优越的特征提取性能,近几年以卷积神经网络为代表的深度学习方法几乎在所有计算机视觉子领域都取得了重大突破,极大地推进了这些研究领域的发展。在本文中,基于卷积神经网络,我们将聚焦计算机视觉领域中两个重要任务:图像识别和语义分割。其中图像识别(图像分类)是所有计算机视觉任务的基础。使用卷积神经网络的图像分类方法首先学习关于输入图像的层级特征表达,然后根据这些特征进行分类。图像分类的核心是特征学习过程,同时这也是所有其他计算机视觉任务的基础。设计一个性能优异的卷积网路结构是所有这类方法的关键。而语义分割,则是实现图像理解、图像编辑与机器人环境感知的基础。语义分割是一个密集的像素分类问题,所以其可以看成一种高层次更加精细化的图像分类问题。本文首先分析了现有基于卷积网络的图像分类方法,然后提出了一种基于多支路并行卷积神经网络和判别器网络的图像识别网络架构,其可以使用任意现有卷积神经网络模型进行构建,并且采用一种由对抗学习扩展而来的新颖训练方法进行训练,显著提高了卷积网络的特征提取能力,在多个公开基准数据集上取得了最佳表现,同时还使用了可视化方法进一步验证了该方法的有效性。而后,我们就该网络中的判别器网络进行额外实验与分析,引出了一种新的基于注意力模型的语义分割方法,通过结合多尺度支路,提出了一个使用多扩张卷积策略的注意力模型,使得网络充分利用图像上下文信息,该方法亦在多个语义分割基准数据集上的性能超过了相关方法。
其他文献
传统结构可靠度的计算方法常常用在结构构件的可靠度分析上,当需要对结构整体进行可靠度分析或者对较复杂结构进行可靠度分析时,由于结构的功能函数难以显式表达,或极限状态
随着嵌入式设备的普及和Web技术的发展,移动Web应用也在迅速发展。为提升用户的浏览体验,移动Web应用的性能也在不断提升。而移动系统默认资源调度策略以最低响应延迟为目标,
近年来,建筑行业传统建造模式与生态文明建设要求之间的矛盾日益凸显,建筑行业转型升级迫在眉睫。而住宅产业化被公认为建筑行业实现绿色可持续发展的必然选择。但目前我国住
随着社会与科学技术的发展,摄影、拍照成为了人们记录生活的一种方式,并且人们开始追求各种各样的照片风格效果。20世纪90年代,图像的非真实感绘制技术进入了人们的视线。铅
作为未来5G关键技术之一,非正交多址能够满足无线蜂窝网络对于大规模机器类型连接的需求。NOMA通信技术主要通过功率域复用或稀疏编码来同时服务于多个用户,并在接收端采用连续干扰消除接收机进行信号的解调。本论文研究的是在单层网络多小区场景中,采用功率域NOMA进行上行传输的用户的平均系统能效问题。由于用户往往仅由其携带的电池供电,进行上行NOMA传输的用户通常是能量受限的。因此,本文考虑将射频能量收集
超流体支持无耗散运动是其超流动性的表现之一。超流体的临界速度vc是由其元激发能谱决定的,只要超流体中杂质的运动速度超过vc时,就会产生能量耗散。近年来,具有各向异性偶
目前,量子安全计算领域日益备受关注,量子隐私比较作为量子安全计算的重要分支也得到了深入研究。目前,在量子隐私相等关系比较协议中,大多数只能比较数字的相等关系,不能比
随着社会的发展与进步,人们的生活水平也不断提高,狗在人们日常生活中出现的频率也逐渐增加,越来越多的机构和组织也投入了对狗的研究与应用。其中狗脸图像的多目标检测具有
随着智能手机等移动电子设备的快速发展与普及,如今已进入全民摄影时代。由于摄影条件和摄影者自身美学鉴赏能力的差异,所拍摄图像的美学质量也呈现出较大的差异。为满足人们
目的:共词聚类分析结果的表达是共词分析应用的最后一步。现有的共词分析结果表达的方法均具有一定的局限性,所得到的结果存在主观性较强及表达不全面等问题。本研究提出基于