基于空间不变性和模态一致性深度特征学习的室内外场景分类

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:hxjswordin123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着多媒体技术的快速发展,图片数量迅猛增加,倚靠人工对海量图片进行标注和分类的管理模式已经远远无法满足现实需求。因此,利用计算机技术自动对图像进行分类成为目前的一个研究热点。相比于其它模式识别的任务,场景分类(Scene Classification)任务旨在理解整个场景图像的语义内容和组织方式,因此对场景图像的分类任务一般更复杂。近年来,深度学习(Deep Learning)突破传统人工设计特征算法的约束,为室内外场景分类带来了新的解决方案,提高了场景分类准确度,促进了场景分类技术的发展。但是,随着场景种类更多、数据量更大,“类内变化大”、“类间混淆性”、“场景多重性”等问题也变得更具挑战,使得现有算法的分类准确率也有所下降,因此难以应用到实际生活中。因此,本文有必要深入地探究深度学习在场景分类的研究进展及其遇到的问题,并进一步提出场景特征学习的方法以应对现实需求。总括之,本课题的研究工作主要有以下三个方面组成:(1)全面总结和分析深度学习在场景分类任务上的研究进展。为了帮助学者掌握该领域的研究进展,本课题对深度学习在场景分类中的最新成果进行全面的回顾总结和分析。本文先阐述了场景分类任务的三大挑战,再概括了场景分类在手工特征工程和深度学习的两个阶段。另外,还介绍了深度学习的基本思想及其核心技术卷积神经网络(Convolutional Neural Network),并归纳出基于深度学习的五种场景特征,最后总结了深度学习应用到场景分类领域的四种主要提升策略及其研究进展。(2)提出一个基于可变卷积和注意力机制有机结合的场景分类模型(De CAM),以捕获到空间不变性特征和关注到显著性区域。为了减小类内变化,De CAM模型首次将可变卷积应用到场景分类任务中以获取具有空间不变性的特征空间,并在该特征空间上通过调整Transformer模型的输入设置来提取判别特征。De CAM模型不仅使用无训练参数的池化层来初始化Transformer网络中的空间位置信息,而且主要使用卷积层(而不是全连接层),这两方面都使得De CAM模型的参数量较少。另外,该模型可设置成端对端的训练方式,并与同类型的算法相比能够在基准数据库上获得最好的效果。(3)提出一种学习多模态一致性特征的RGB-D场景分类方法(CFLM)。CFLM模型首次使用编码解码器来同时提取RGB模态和Depth模态之间的一致性特征,并使用无标签信息的场景图像来预训练编码解码器。相比于以往学习一致性特征的方法,CFLM模型中的编码解码器能够直接从像素层面开始学一致性特征,不会忽略两模态的共性,以减小类内变化。此外,CFLM模型中不仅使用交叉熵损失函数来刻画经验风险损失,还添加一个监督正则项来剔除掉一致性特征中的冗余信息,以及添加三元组损失项来促使特定特征的类间距离增大,从而提高模型的泛化能力。
其他文献
当前我国人口老龄化趋势不断加重,老年慢性病患者也日益增多,老年人对药物的依赖程度越来越高。在外出旅游等特殊场景下,药物的携带与服用是困扰当前老年人健康出行的一大痛点问题,尽管近年来市场上出现了一些智能药盒产品,但其在便捷性、有效性和用户体验等方面还存在很多不足,如药物取用不便、紧急药物不易取出、无法记录药物服用情况等,与老年人的服药情境和生活习惯有较大偏差。针对以上问题,本文提出了一种智能药盒水杯
密封圈的老化与GIS气体密封性密切相关,然而目前密封圈的老化特性尚不明确。本文针对密封圈的老化特性,检测人工加速老化密封圈和GIS变电站运行退役密封圈的老化规律、老化特征和老化机理,同时,试验研究了水(湿)和盐水(湿盐)对密封圈热老化特性的影响,为橡胶密封圈的老化研究提供技术支撑。首先,搭建密封圈人工加速老化试验和检测平台,提出密封圈性能检测的新指标变形恢复率,对不同配方新三元乙丙橡胶密封圈弧形试
随着第五代移动通信技术的发展,终端设备的数量和无线通信系统规模持续增长,对能量的需求越来越大,而全球能量短缺问题日益严峻,如何降低通信系统的能量消耗成为了亟待解决的关键问题。无线携能通信(Simultaneous Wireless Information and Power Transfer,SWIPT)将射频能量收集技术整合到无线传输中,为能量受限设备持续提供能量以延长续航,实现绿色通信。另一方
随着社会的进步和经济的发展,能源危机日益突出。传统锂离子电池已无法满足人们的能量需求。因此,开发高比容量和高能量密度的电池系统迫在眉睫。锂硫电池因其高理论比容量、原料储量丰富易得、环境友好等优点而被认为最有潜力的新一代电池储能系统之一。然而,锂硫电池大规模的商业应用也存在诸多问题。例如,活性物质硫利用率低、多硫化物的溶解、倍率性能差、循环寿命短、锂枝晶的生长等。本论文利用过渡金属硒化物对多硫化锂(
嗜热链球菌是常见的发酵菌株之一,具有悠久的应用历史,可用于发酵乳及其制品的生产。当前,我国发酵乳市场逐年扩大,功能性发酵乳产品品类日渐多样化、销量逐年攀升,致使优良发酵剂的需求越来越大。但我国发酵剂制备技术起步较晚,国内发酵剂市场一直被跨国公司垄断。目前国内对嗜热链球菌的研究多集中于菌株的筛选和发酵工艺优化,对其基因组和功能特性的系统研究较少。本文旨在开发具有自主知识产权的、源于中国本土的、具有良
染色废水是印染废水中污染最严重的、最难以处理的废水之一。因此,研发一种高效可行的染色废水处理技术对印染废水的处理具有重要意义。过一硫酸盐(PMS)高级氧化技术对染色废水具有较好的处理效果,但是在均相体系中金属离子容易被氧化或沉淀导致利用率低,过量投加又容易对环境造成二次污染。为此,本研究从催化剂自身催化活性和PMS活化方式两个方面展开研究。其一,制备了非均相MnO2/CoFe2O4磁性纳米复合催化
近年来我国建筑业取得举世瞩目的成绩,其中,装配式建筑已逐渐发展成为建筑领域重点关注的方向之一,但仍存在一定的问题与不足,譬如装配式建筑应用与研究发展不均衡,研究对象大多为住宅类项目,公共建筑类项目较少,对于装配率和造价方面的对比大多集中于装配式住宅类建筑与传统现浇混凝土住宅类建筑之间,而不同类别装配式建筑间的对比分析却略有忽视等。本文收集了123栋装配式公共建筑作为研究对象,对其装配率、预制构件和
豌豆蛋白是一种优质全价植物蛋白资源,正逐渐成为传统蛋白质如动物蛋白、乳清蛋白和大豆源蛋白等的流行替代蛋白。然而,目前国内现有加工技术生产的商品化豌豆蛋白易受热变性、溶解度低、功能性较差、风味和口感较差,极大地限制了其在食品中的应用。因此,如何改善豌豆蛋白的整体性能使其更广泛地应用于食品中是一个亟待解决的问题。本课题旨在通过酶法改性提高豌豆蛋白的整体性能,具体研究结果如下:(1)选用谷氨酰胺酶对豌豆
氮化镓(GaN)作为一种宽禁带半导体,用于功率放大器设计时可承受更高的工作电压,具有更高的功率密度和可工作温度。对于既定功率水平,GaN基功率放大器具有体积小和频率特性好的优势,被广泛应用于通信基站。随着无线通信系统的不断发展,单位时间需要传输更多的数据,射频信号峰均功率比不断增大,GaN基功率放大器的效率不断降低,需要在电路拓扑结构方面不断创新以应对挑战。Doherty功率放大器是提高输出功率回
矿柱稳定直接关系矿山工作人员、作业设备的安全。沉积型铝土矿体常赋存于沟壑黄土地貌之下,通常采用条带式房柱法开采。目前国内外相关沉积型铝土矿矿柱稳定性研究,尚未能考虑到复杂地表地貌条件影响。由于上覆沟壑地表地形起伏大,沉积型铝土矿矿柱易出现应力集中、发生剪切滑移破坏等问题,不利于矿区安全稳定。因此,开展沟壑黄土地貌下伏沉积型铝土矿矿柱稳定性研究,提高铝土矿山本质安全技术水平,具有重要意义。论文以山西