论文部分内容阅读
随着图像在人们日常生活中的重要性日益增加,大量的图像,视频,文本形式的数据正在医疗,卫星数据,视频,静止图像存储库,数字取证和监控系统等许多领域得到应用,从而已经产生了对可以有效存储和检索多媒体数据的系统的持续性需求。图像检索是指从图像数据库中检索出相同或者相似的图像。从图像内容自动推导出语义上有意义的信息是大多数图像数据库研究的重点。至此,基于内容的图像检索系统被提出。迄今为止,为满足这些需求,研究者已经开发了大量多媒体信息存储和检索系统。本文主要包含怎样设计一个简单有效的基于内容的图像检索系统,设计的核心主要在于底层特征的提取,高维特征融合与选择等方面。CBIR(Content-Based Image Retrieval)自动从图像中提取颜色,纹理,形状和空间位置等底层特征来表示检索数据库中的图像。然后系统根据返回结果的好坏动态调整用户相关反馈机制,优化检索系统。一些方法中将几种底层特征融合成一个高维特征,然后进行检索任务,也取得了令人满意的结果。然而这种方式形成的高维特征通常存在冗余信息过多,维度过高等问题,甚至产生噪音。这样不但增加了计算时间,而且会发生过拟合,检索效率低下,学习性能差等一系列问题。研究人员通过研究发现,这些特征中只有部分特征是有辨识度和区分性的。而特征选择技术,就是将多个低维特征合并,从中导出最有效的特征向量集,这有利于最终决策。根据上文提出的问题,本文主要对基于内容的图像检索中关于提出好的特征提取方法和特征选择问题进行研究。对于特征提取问题,我们提出了一种新颖的颜色特征提取算法 CoCD(Contrast and Color Distribution)。原有的 CoLD[1](Contrast and Luminance Distribution)特征主要用来表示图像的颜色和纹理特征。为了获得更多的有效信息,我们用HSV颜色空间代替原有的亮度分布,并取得较好的实验效果。在特征选择方面,我们使用了线性判别分析法(lineardiscriminant analysis)将合并的特征投影到一个监督学习出的子空间中,得到一个更具辨识度,特征维度更低的特征描述符。本文中用Corel 5K(5000幅图像)作为实验数据库,采用查准率(Precision),查全率(recall),P-R曲线和平均查准率作为检索图像的评价标注,常见的欧氏距离作为相似性度量方法。我们验证了本文提出的特征提取算法和特征选择方法的性能高于其他对比方法。实验结果表明,新的特征提取算法相对于一些底层特征算法有明显改进,同时提出的特征选择方法也可以明显加快检索速度和提高检索效率。