面向图像检索的视觉局部特征的结构化与语义描述研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:xby520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动设备的普及和多媒体技术的迅猛发展,人们日常生活中触手可及的多媒体数据呈现爆炸性增长。同时,新兴的交互式互联网技术的发展,使得这些数据有了一个整合的平台,从而形成了海量多媒体数据,并且这些数据之间关联信息丰富,准确理解它们将对文化建设、社会发展、公共安全等方面都具有重要的意义。因此,如何对互联网上海量图像数据进行有效的检索和分析目前已成为多媒体内容分析领域亟待解决的问题。  传统的图像检索和分析技术受制于底层视觉特征和高层语义信息间的语义鸿沟,已不能很好地应对数据的海量规模和多样性,语义的层次化结构以及噪声问题。针对上述问题,本文首先对海量图像数据的内容特点以及对应任务的问题难点进行了讨论,然后从视觉局部特征的结构化描述,基于局部特征的语义描述,以及图像检索框架三个方面来对海量数据的内容理解和检索技术进行了深入的研究。  在视觉局部特征的结构化描述方面,本文提出一种局部纹理自相似描述子(LSSD)用于局部视觉相似图像的检索任务中。该局部描述子可捕捉兴趣点周围区域在纹理特征上的内部几何布局,且具有鲁棒的旋转不变性。针对图像检索中传统的视觉词袋模型中对局部视觉特征的描述力不足的问题,本文整合LSSD特征和SIFT特征设计了一种图像多特征描述,该描述既能鲁棒地捕捉兴趣点周围区域的内在几何分布,又能有效地捕获兴趣点周围的内容信息。此外,针对上述多特征描述形式化了一种半相对熵的距离度量准则。在两个公共的图像数据集和一个网络图像数据集上进行视觉相似图像检索实验,结果表明本文提出的局部纹理自相似描述子与SIFT特征在描述内容方面互相补充,可被有效的应用到视觉相似图像检索任务中。  在基于局部特征的语义描述方面,本文提出了一种层次化的图像语义描述(Vicept)来用于海量图像的语义分析和检索。通过对海量图像语义理解中的视觉多义性和语义多态性这一关键性问题的深入讨论,本文学习了一种有效的知识库:Vicept,其刻画了图像视觉表观和语义概念间的隶属度分布,并对图像构建了一种从局部到全局的层次化语义描述。本文利用混合范式正则来得到结构稀疏且有较强分辨能力的Vicept描述。此外,为了提高Vicept的学习速度,一种基于在线学习的算法被引入。对于一种新的描述,恰当的度量准则也是必不可少的。本文针对Vicept的层次化语义描述构建了一种新的图像距离度量,通过其层次间的独立性分析来进行最后的融合。本文在海量语义图像检索,图像标注和语义图像重排序任务下对所提出的方法进行了测试,实验结果表明,Vicept可以实现快速准确的图像语义检索和标注。  在图像检索框架方面,本文提出了一种基于显著性指导的视觉匹配框架用于局部视觉相似图像检索,在得到检索结果的同时,还能得到图像间的相似区域的位置。本文针对局部相似图像数据的特点,提出了一种新的图像检索基元:图像中具有视觉显著性和丰富视觉内容的区域(VSRR)。克服传统词袋模型描述能力不强的缺点,一种鲁棒的基于显著性分析的相对约束被设计来提高检索的性能,该约束可捕捉到VSRR中兴趣点的显著性相对布局。为了加快检索的速度,本文提出了一个有效的可将上述约束嵌入到索引系统中的算法框架,并且该框架有较高的可扩展性。在五个公共图像数据库上的局部视觉相似图像检索实验结果表明,本文的方法在保证检索效率的同时,还能取得比传统检索方法更高的检索准确度和召回率。
其他文献
网络是一把双刃剑,它既为多媒体的传播提供快捷通道,同时也使得这些数字作品被复制和修改的几率大大提高。加密方法为版权保护提供了一种有效的途径。该方法使用密钥和加密算
区域人流量预测不仅可以解决交通拥堵问题也可以避免类似上海外滩踩踏事件的发生,在人们的日常生活中具有非常重要的应用价值。随着各种定位技术及基于位置服务产品的发展,产生
云计算(Cloud Computing)是网格计算、分布式计算、并行计算等传统计算机和网络技术发展融合的产物。作为一种新兴的计算模式,云计算以其高度的可扩展性、灵活的按需付费模式
TCAM由于其稳定又高效的查找性能,近年来被广泛应用于高速网络下的数据包分类系统中。TCAM中的规则表是动态的,当网络拓扑变化或者防火墙策略变更时,规则会被插入或者删除。插入
随着互联网的高速发展,数据急剧增长,低时延高吞吐的分布式流处理引擎应运而生。对于分布式流处理引擎而言,能应对服务器宕机、数据波动变化大、操作复杂度变化等情况显得格外重
进入21世纪,全球范围内的数据量呈爆炸性增长。分析调研机构IDC发布的报告显示,全球的数据总量每两年就会增加一倍。到2015年,数据量预计将会达到8000EB。  海量数据中,流数据
本文的主要工作是完成一套激光谐振腔损耗测试系统中系统测控软件部分的研制工作。该系统是一套集光机电一体化的多机构复杂系统,要同时实现自动聚焦、图像位置识别、损耗自
随着多媒体以及网络技术的发展,越来越多的企业使用网络会商系统。会商系统通过传输声音、视频、图像等信息,实现跨域沟通,能够为企业、公司提高办公效率、节约行政成本。但
标识密码技术是实现网络关键部分认证、授权机制,保障网络可控性,构建可信网络的重要手段。然而由于需要依靠第三方为用户生成私钥,使得标识密码技术存在与生俱来的密钥托管问题
该文详细介绍了系统的设计和实现过程.第一章对作者的问题进行了描述,并简要介绍了超大规模集成电路计算机辅助设计的概况,以及与作者的问题相关的子图同构问题和电路匹配问