论文部分内容阅读
嵌入在图像中的文本与图像内容存在着密切的关联关系,这些关系对于理解图像发挥着重要的作用。本文以新闻图像与字幕文本为研究对象,探索图像内容与字幕文本之间的内在联系,提出了单向协同识别与检索方法。由于字幕文本与图像内容相关性研究的缺失,造成了图像内容的识别是单独进行的。而图像内容与字幕文本的相关性没有得到充分的利用。本论文建立单向协同识别与检索模型,通过学习和估计字幕文本与图像内容的联合后验概率,充分利用两个模态的信息,来提高图像识别与检索的准确率。由于字幕文本具有很多有利于文本检测与定位的特点,这给字符前景的提取提供了很大的方便,本文采用了自适应的改进的Harris角点检测算法进行文本检测与定位。在提取出字符前景后放入OCR分类器中进行识别。根据字幕的文本信息生成字幕特征向量,然后放入协同分析器中分析出协同概率。然后代入联合后验概率计算公式,最后由协同模型判别出新闻图像的类别。本文对新闻图像数据集在协同分类器和单模态的新闻图像分类器上进行了对比实验。实验结果表明,本文的协同方法可以有效地对新闻图像进行分类,准确率能达到92.67%,相比于单模态的图像分类器性能有很大的提高。在基于协同算法的图像检索时,由于以往的相似度计算方法并不适用于本协同模型。因此提出了一种新的基于协同算法的相似度计算方法,该方法可以有效地计算出两幅图像间的相似程度。对于单模态的新闻图像检索系统,由于其可能不能准确地理解出检索者要检索的图像的语义内容,因此在检索结果上会出现些偏差。而协同检索系统,会根据字幕的语义信息帮助其理解图像语义,所以检索质量有很大的提高。