基于视觉认知机理的图像语义内容获取研究

来源 :北京科技大学 | 被引量 : 4次 | 上传用户:dgwyldgwyl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了利用计算机模拟人类的视觉认知机理,实现人类或其他高等生物的视觉功能,达到对反映客观世界的图像场景的感知、识别和理解,就需要根据图像的视觉内容来获取人类能够理解的语义内容。由于在视觉感知初始阶段,视觉注意往往会快速定位在一些具有一定语义信息的局部区域或者目标上,这些区域或者目标正是语义内容所描述的对象;同时,随着局部区域的快速定位,视觉系统会根据这些区域之间的形状及局部特征的视觉差异性,自动聚焦场景中的主要或者显著性目标进行感知;最后认知系统会围绕聚焦的显著目标及其相关联信息而展开,从而形成针对整个场景描述的语义内容及感知。因此,本文首先利用一种改进的超像素分割方法,提取图像中具有一定语义信息的局部区域:然后结合局部区域的视觉特征,构建显著性目标或区域检测模型,获取图像中的中高级语义信息-显著性及显著性视觉内容:最后以显著目标或者区域及其相关信息为视觉引导,利用神经网络通过深度学习建立起图像的自动语义标注模型,获取场景的最终高级语义描述内容。具体工作如下:1)在局部区域的提取过程中,提出一种基于SLIC0融合纹理信息的超像素分割方法。此方法在分割过程中融合能够反映图像中目标及区域固有外轮廓及边界的纹理特征。同时采用围绕种子像素点搜索其周围圆形区域的策略,从而在进一步提高处理效率的基础上使得分割的超像素可以更加逼近图像中局部区域或者目标的外轮廓,保证相对快速分割出具有规则大小及形状,以及其边界符合目标及区域的外轮廓的超像素。最后通过在公共数据集BSDS500上进行实验及量化比较分析,结果表明本文所提的SLICO-t超像素分割方法优越于目前评价很高的SLICO方法。其中在边界召回率方面,相对比较稳定的超过了SLICO方法的8到9个百分点。2)在显著目标或者区域检测过程中,首先提出一种针对超像素局部区域信息进行描述的稀疏直方图模型。这种直方图模型整合描述了局部区域的局部纹理、颜色及形状信息。然后在此基础上提出一种图像显著性检测方法,使得检测的显著目标或者区域清晰完整地从背景场景中分离开来,同时,显著性目标或者区域具有相对完整的外轮廓及形状特征,以及局部纹理细节信息。最后通过在Achanta等人提供的公开测试数据集上进行实验及量化评估,并与目前流行的五种显著性检测方法比较,结果表明本文提出的显著性检测方法在精准率、平均F-measure以及绝对均值错误率方面优于其它几种显著性检测方法。3)在图像的自动标注及语义内容获取过程中,本文首先以场景中显著目标的视觉特征为先验知识,感知场景中的显著目标或者区域。然后在已经感知的显著目标或者区域的基础上再次利用整体局部区域特征进行进一步映射增强。这种双层映射过程,使用两种视觉特征进行训练学习,它是一种基于神经网络的在自我学习过程中进行决策层面融合的过程。同时,在图像与文本语义信息的encoding过程中,借鉴使用已经被成功验证的保序映射的方式进行映射,从而比较准确的挖掘揭示图像与语义文本描述之间的潜在关系。最后通过在三种公共数据集Flickr8k,Flickr30k及MSCOCO上分别进行训练、验证及测试,并应用于图像语义的双向检索进行评估衡量。结果表明本文所提方法相比目前公开发表的方法,在不同召回率方面(Recall@K(k=1,5,10))都有了进一步提高,并且获取的语义内容更加符合人类的认知习惯,显得自然流畅。同时,本文的研究成果对图像局部特征表征及提取、图像分割以及更广泛领域的图像理解相关方面的研究具有重要的参考价值。
其他文献
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
<正>1引言按照明确的、国际公认的管理规定,制药公司必须收集药品安全性信息以便进行安全性评估并向上级主管部门报告。虽然不同国家的管理部门有不同的报告标准及时限要求,
研究多尺度地理空间点群目标相似关系的计算问题。基于4类点群信息,将点群目标包含的信息重新分成统计信息、专题信息、拓扑信息、几何信息和度量信息,这5类信息是影响点群相
鞣质类是多O—H键的化合物。O—H键的振动波长接近许多细菌的长度范围。本文考查了12种含鞣质类中草药的有效成分的分子结构,所有含鞣质类的中草药都有抗菌作用。这又一次验证
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
物体检测,旨在定位并识别图像中的物体,是计算机视觉的核心问题之一。尽管有长达数十年的研究历史,但是在面对真实世界的复杂场景时,物体检测系统的表现依然不尽如人意。作为