面向图像检索的特征融合方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:v80ak48
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机网络的发展以及智能手机等多媒体获取设备的普及,多媒体数据呈爆炸式增长,其中图像和视频数据已经成为大数据时代的主要数据类型。如何在海量的图像中以较小的时空开销准确找到用户感兴趣的图像成为多媒体领域的研究热点。针对图像的底层特征与高层语义间的“语义鸿沟”问题,以及全局图像表示缺乏几何不变性和空间占用较大的问题,利用深度学习、特征编码、哈希学习等方面的知识,论文系统探讨了图像检索系统中的描述符构建、特征融合和二值化压缩方法,研究成果同时利用全局和局部信息,结合深度特征及浅层特征,使描述符可以同时捕获全局和局部、高层和低层的信息,通过融合多个特征层次及多尺度信息,增强描述符的区分力和尺度不变性,通过对描述符进行二值化压缩,在不显著降低图像检索准确率的同时节省了存储开销。
  针对卷积神经网络高层特征含有丰富的高层语义信息,但缺乏局部信息及底层信息的问题,提出了结合底层颜色、边缘特征和ResNet特征的多层特征融合描述符。多层特征融合描述符同时利用底层的颜色和SIFT特征、中层的卷积层和高层的全连接层特征,将多个层次的特征融合在一个描述符中。为了对描述符各个层次的特征进行进一步的融合,利用神经网络训练了一个非线性变换,将多层特征融合描述符从一个结构化的表示转变成一个非结构化的表示。为了节省存储空间,利用符号函数对描述符进行了二值化压缩,并设计了两种距离计算模式:对称距离计算和非对称距离计算,在计算时仅需载入数据库图像的描述符压缩编码,节省了空间开销,而准确率损失较小。实验结果表明,各个特征层次是有效的,通过非线性变换,有效提高了描述符的准确率,通过二值压缩,在未显著降低准确率的同时,节省了存储空间。
  针对卷积神经网络全连接层特征包含丰富的高层语义但缺乏几何不变性以及局部信息的问题,提出了一种包含多尺度信息、具有多层特征的“全局-对象-显著性描述符”。全局-对象-显著性描述符由全局层、对象层以及显著性区域层三个层次构成。全局层通过多分辨率策略来捕获多个尺度的全局信息,对象层利用对象检测方法提取多尺度的对象以捕获对象层的多尺度信息,显著性区域层通过深度显著性区域检测网络来捕获图像显著性区域的信息。图像中的对象大小和位置是不确定的,全局-对象-显著性描述符通过在全局层、对象层融入多尺度信息来增强图像全局描述符的几何不变性。全局-对象-显著性描述符集成了来自整幅图像的信息、方形对象区域的信息以及显著性区域的信息。实验结果表明,全局-对象-显著性描述符的三个层具有互补性且是有效的,加入显著性信息可以有效提高描述符的区分力,在图像检索公共数据集上取得了较高的准确率。
  为了减少描述符的空间占用,提出了一种迭代的稀疏哈希学习算法-多层语义二值描述符学习算法,在最小化量化误差的同时,利用稀疏性去除具有多个语义层次的浮点描述符的冗余信息,在压缩描述符的同时尽可能减少信息损失,保证二值化后的区分力;通过正交变换消除特征向量各维相关性,增加哈希码信息含量;逐步交替执行稀疏化、更新旋转矩阵以及更新编码矩阵的操作。为进一步提升查询的准确率,提出了一个不相似性度量,同时融合哈希码包含的视觉信息以及类概率向量包含的高层概念信息,可以有效提高查询的准确率。在图像检索公共数据集上的实验表明,多层语义二值描述符不仅占空间较小且具有较强的区分力,以较小的空间开销在准确率上超过了很多浮点描述符方法。
  论文在多层特征融合、增加描述符的尺度不变性和区分力以及对描述符进行二值化压缩等方面做了深入研究,但需要研究的问题还有很多。论文的研究主要关注的是提高描述符的区分力和减少描述符空间开销,在提取速度上依然有所不足,如何提高描述符的提取速度需要进一步的研究。如何同时利用图像标签文本语义信息和图像视觉信息来进一步提高描述符的区分力是需要进一步研究的问题。多层语义二值描述符是一个二阶段的方法,并非最优,如何将多层语义二值描述符与“端到端”的学习方法相结合,同时学习特征提取器和哈希函数以生成一个最优的二值图像描述符仍需进一步研究。
其他文献
CO2捕集技术作为一种负碳排放技术,可以有效实现电厂等大型碳排放源的碳减排,进而应对全球变暖和气候变化。化学吸收法是发展最为成熟,且最接近商业化的碳捕集技术,但是较高的捕集能耗限制了其进一步发展与应用。本文从多个方面分析了提升化学吸收法碳捕集技术能效的方法,形成了“循环分析及优化—技术实现、验证及优化—系统集成及优化”的分析路径,从单个循环到实际系统再到多系统集成,逐步提升化学吸收法碳捕集技术能效
学位
微波光子技术结合了微波技术和光子技术的各自优势,有望解决传统雷达难以实现的宽带信号产生和处理问题。然而现有的微波光子系统大部分基于分立器件构建,存在着重量大、体积大、成本高、可靠性差、易受环境影响等问题,严重制约了微波光子技术在雷达系统的实际应用。微波光子系统集成化是解决上述问题的重要途径,也是现阶段微波光子技术的研究焦点。  本文以集成微波光子雷达为研究方向,围绕其中的滤波、延时、移相及系统验证
保障智能卡、射频识别、无线传感器网络等资源受限设备的信息安全,已成为密码学领域备受关注的科学问题。为能更好实现密码性能在安全与高效之间的有效兼顾,本文对基于动态轮数的混沌分组密码开展研究。主要研究内容说明如下:  针对有限运算精度造成混沌系统动力学特性退化,通过统计测试分析得出量化方法和参数设置对数字混沌特性的影响规律,采用级联和扰动的补偿方式构建动力学特性显著增强的数字混沌模型,从而更好满足混沌
学位
量子信息与量子计算领域中两个著名的研究成果——BB84密钥分配协议(Bennett-Brassard protocol proposed in 1984)和Shor的质因子分解算法——均对现有的密码体系产生了深远的影响。然而,更具广泛应用前景的Grover迭代算法在穷举搜索之外的密码学应用还未经充分研究。此外,另一类典型的量子迭代运算过程——量子随机行走——的非马尔科夫模式(或具有记忆的量子行走算
数据建模是机器学习和人工智能领域的重要研究问题,聚类分析可以有效地挖掘数据内在的模式和规律。复杂网络(图数据)作为新的研究热点,对理解社会复杂系统有着重要的作用,可以有效地用于推荐系统、恐怖组织挖掘等问题。近年来,网络结构的动态演变给社团检测建模提出了新的挑战,如何采用高效的学习模型挖掘动态复杂网络内在的规律,实现社团检测和演化分析,成为动态复杂网络研究的重点。从动态复杂网络中节点重要性、社团结构
语义分割旨在为图像中的每个像素分配一个预定义的语义类标签,使计算机能够通过视觉的方式对场景进行细粒度地理解。该技术被广泛应用于自动驾驶、城市规划、智能家居等任务中,是计算机视觉领域的重要分支。近年来,基于深度卷积神经网络的分割技术将任务性能提升到了一个新的水平。然而,现有的深度学习方法需要大量的像素级人工标注图像作为训练数据,使得这些方法所需的时间和金钱成本十分昂贵。为了减轻手工标注数据带来的沉重
学位
异构并行系统通常是指由中央处理器(Central Processing Unit,CPU)与图形处理器(Graphics Processing Unit,GPU)、现场可编程逻辑门阵列(Field Programmable Gate Array,FPGA)等协处理器共同组成的计算方式异构的高性能计算系统,因能提供更为高效的应用加速能力而被广泛部署,在大数据、人工智能等众多关键领域得到了广泛应用。当
Android(安卓)操作系统占据了智能终端操作系统的大部分市场份额,搭载Android操作系统的智能设备成为主流。由于移动智能终端携带了较多的用户隐私信息,同时Android应用的安全机制存在一定的局限,导致Android应用可能存在严重的安全隐患。需要对Android应用的安全机制特别是权限机制进行深入的研究,分析Android应用中的权限安全风险。同时关注和研究Android应用的安全漏洞,
学位
由于互联网信息的快速增长,用户面临着信息过载的问题。借助数据挖掘和人工智能领域中的相关技术,推荐系统能够帮助用户快速找到其感兴趣的信息,在社交网络、电子商务、在线阅读和广告投放等领域得到了广泛的应用。随着互联网应用的多元化发展,传统的推荐模型难以直接运用到新领域中以解决相应的问题。  以智能手机,笔记本电脑等为代表的电子产品更新换代通常较为频繁,而用户对于此类产品的消费周期则相对较长。传统的推荐系
学位
随着计算机软硬件技术的飞速发展,传统的动态随机访问存储器(Dynamic Random Access Memory,DRAM)因其存储能耗大、存储密度小、可扩展性有限等缺点已经无法满足应用越来越大的内存需求。新兴非易失性存储器(Non-Volatile Memory,NVM)尽管可以避免此类问题,但因其访问时延高、写次数有限及写功耗大,也无法直接作为系统内存。因此,混合使用小容量DRAM和大容量N
学位