论文部分内容阅读
随着多媒体技术、计算机技术的迅速发展,多媒体数据已经成为重要的信息资源,人们每天都可以通过互联网接触到大量的多媒体信息,如视频、图像、各类新闻等。网络新闻作为一种多媒体数据大都与公众人物的行为活动相关,公众人物的行为活动又与当前的重要事件密切关联。因此,如果能够方便地对新闻图像中的公众人物进行检索,那么便可以快速了解各种事件的动态。面对大量的新闻图像资源,如果人工寻找某个相关人物的图像,是对人力与时间的浪费。如果能对新闻图像中的人物标注,并生成相关数据库,则可以很方便、快速地对人物进行检索。采取手工标注的方法是有效的,但是多媒体和网络技术的迅速发展使得图像库越来越大,完全使用手工标注,工作量太大。网络新闻中图像与文本相互关联,本文利用网络新闻这种图文并茂、图文互补的特性,生成有人名标注的人脸图像数据库。在网络上获取大量新闻数据,从新闻数据的文本部分提取出与新闻相关的人物的名字,并在与文本相对应的新闻图像中进行人脸检测得到人脸图像,最终得到大量的带有噪声的人脸人名对。通过学习可以去除噪声,得到正确的人脸人名映射关系,即将网络新闻图像中出现的人用其名字进行自动标注。这样就将图像检索问题转化为文本检索问题从而可以很好地解决人物检索这一问题。本文采用基于Adaboost的人脸检测算法从新闻图像中获取大量的人脸图像,通过中值滤波、直方图均衡化来提高人脸图像质量,通过人眼定位来校正并标准化人脸图像,得到一个标准化的人脸图像集合。针对网络新闻图文互补的特性,本文对AP聚类算法进行改进,提出了基于改进AP聚类的人脸图像标注方法,最终得到人脸与人名之间的对应关系。并且提出通过一个合并聚类的过程识别出同一个人的不同名字。改进的AP聚类算法能充分利用网络新闻图文互补的特性,将来源于网络的新闻数据进行处理,最终得到一个带有准确人名标注的人脸图像数据库,同时支持基于内容的人物检索与基于文本的人物检索。