新闻图像内容与字幕文本协同识别与检索方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:shztky880
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
嵌入在图像中的文本与图像内容存在着密切的关联关系,这些关系对于理解图像发挥着重要的作用。本文以新闻图像与字幕文本为研究对象,探索图像内容与字幕文本之间的内在联系,提出了单向协同识别与检索方法。由于字幕文本与图像内容相关性研究的缺失,造成了图像内容的识别是单独进行的。而图像内容与字幕文本的相关性没有得到充分的利用。本论文建立单向协同识别与检索模型,通过学习和估计字幕文本与图像内容的联合后验概率,充分利用两个模态的信息,来提高图像识别与检索的准确率。由于字幕文本具有很多有利于文本检测与定位的特点,这给字符前景的提取提供了很大的方便,本文采用了自适应的改进的Harris角点检测算法进行文本检测与定位。在提取出字符前景后放入OCR分类器中进行识别。根据字幕的文本信息生成字幕特征向量,然后放入协同分析器中分析出协同概率。然后代入联合后验概率计算公式,最后由协同模型判别出新闻图像的类别。本文对新闻图像数据集在协同分类器和单模态的新闻图像分类器上进行了对比实验。实验结果表明,本文的协同方法可以有效地对新闻图像进行分类,准确率能达到92.67%,相比于单模态的图像分类器性能有很大的提高。在基于协同算法的图像检索时,由于以往的相似度计算方法并不适用于本协同模型。因此提出了一种新的基于协同算法的相似度计算方法,该方法可以有效地计算出两幅图像间的相似程度。对于单模态的新闻图像检索系统,由于其可能不能准确地理解出检索者要检索的图像的语义内容,因此在检索结果上会出现些偏差。而协同检索系统,会根据字幕的语义信息帮助其理解图像语义,所以检索质量有很大的提高。
其他文献
伴随着多媒体技术的快速发展与数码设备的广泛普及,在采集、存储、传递数字信息越来越便捷的今天,数字多媒体内容安全和数字出版物版权保护成为人们关注的焦点。数字水印技术
由于社会信息的日益复杂化,在许多领域,例如运筹学、管理科学、信息科学、工业工程、航天技术以及军事中都存在人为的或者客观的不确定性,表现形式也多种多样,如随机性、模糊
病虫害对植物的迫害已经成为一个严重的问题,尤其对于农作物来说,不仅会造成大面积的减产或绝收,而且会给某些经济产业带来一定程度的影响。因此,通过研究植物和病虫害间的相互作
动态场景下的视频监控,尤其人物或者交通工具的监控,是计算机视觉主要的研究方向,拥有广阔的应用前景。主要包括,特殊区域的监控,远距离人物识别,人流统计,和拥塞分析,异常行为检测以
近二十年来,机器翻译(machine translation,MT)研究迅猛发展。相比于传统的基于规则(rule-based)和基于实例(example-based)的机器翻译方法,统计机器翻译(statistical machine t
手机已经成为绝大多数人日常生活不可分割的一部分,它能提供给人们的服务数不胜数。手机流量数据的统计分析不仅能为手机用户提供更好的用户体验,也能为运营商做出更好的营销
目前,随着国民经济的快速发展,房地产市场交易日趋活跃。信息技术的快速发展,带动了房地产行业的信息化进程。房产门户网站在市场交易中的影响愈来愈深刻,如58同城,21世纪不动产,新
随着半导体技术和嵌入式技术的快速发展,以及Java技术的广泛应用,Java的很多优点使其在嵌入式系统中的应用越来越广泛。但是,Java程序的运行,需要借助Java虚拟机(以下称为JVM),以及
为了清楚的了解人类的遗传机制,以便用于疾病的治疗和预防,对于生物序列的研究成为了研究分析遗传的基础。而最基本的序列研究就是序列比对与序列组装。随着新一代测序技术(N
在短道速滑运动中,体能发挥着极其重要的作用,为了使短道速滑技战术仿真系统能更加真实的模拟虚拟运动员比赛过程中的运动状态,提高仿真系统的实用性,设计一个科学合理的体能模型