论文部分内容阅读
随着互联网的飞速发展,随着手机、数码相机、平板电脑等移动设备技术的不断进步,越来越多的图像、视频等媒体不断涌入互联网并且持续传播扩散。面对如此大规模的Web图像数据,如何有效的进行管理、组织和检索,已经成为学术界和工业界面临的重要问题。本文主要关注图像检索中的三个子问题:(1)图像排序和重排序;(2)静态图像中的动作识别和检索;(3)图像一文本互摘要。1、图像排序和重排序:排序是信息检索领域的一个重要问题。将用户最想得到的结果排在尽量靠前的位置,是排序研究的关注点。本文借助排序学习(Learning To Rank)的思想,结合图像检索的特点以及具体问题,将基于遗传规划(Genetic Programming)的排序模型应用到Web图像检索的任务中,综合考虑Web图像的多种特征,例如文本、视觉信息、链接关系等,将Mean Average Precision作为模型的适应度函数,设计迭代策略,求得近似最优解。在对图像排序的研究中,发现传统的排序模型大多忽视了图像本质的视觉信息,特别是检索结果的视觉多样性的丢失,不利于用户尽快找到想要的结果。针对此问题,本文提出了Dual-Ranking模型来改善图像检索的排序结果多样性的问题,首先构建一个多部图模型(Multipartite Graph Model)来表示图像的文本、视觉以及质量三部分特征描述子,然后根据普聚类的原理构建一个有约束的多目标优化问题,借助于半正定规划(SDP)求解策略进行求解,完成聚类过程。Dual-Rank框架通过簇间排序(Inter-cluster Rank)以及簇内排序(Intra-cluster Rank)两种排序策略分别对图像簇以及每一簇中的图像进行排序,选择代表性的图像放在簇表面进行展示,达到重排序的目的。2、静态图像中的动作识别和检索:在对图像进行排序研究的过程当中,发现对于一些表示动作(Action)或者事件(Event)的检索结果仍然依赖于文本中的关键词匹配技术,并没有考虑对于图像的高层语义的理解。为了解决这个问题,本文为多种动作(Action)设计了基于多核学习的视觉识别和分类模型。首先定义模板集合,然后训练模型并且求解多核组合的优化问题。通过动作识别模型进一步过滤动作检索的结果,保证语义相似性的前提下,提高结果的视觉相似性。3、图像一文本互摘要:在研究静态图像中动作识别和检索的过程中,如果能够对图像进行高层复杂语义的标注,例如用一句话或者一段文字描述图像中的语义信息,将是十分有意义的工作,能够进一步提高图像语义标注的完整性,将比单纯关键词和标签的标注含有更加丰富的信息。所以,本文提出了一个简单的方法对静态图像中发生的事情进行描述句子的自动生成。把图像中的目标(等价于句子中的主语或者宾语、宾语补足语等)看作一种隐藏信息。将句子生成问题简化成动作检测和场景分类问题,设计一个有隐含变量的多核学习问题进行动作检测以及场景分类,构建二元组<动作,场景>,最后通过一个定义好的句子模板将二元组翻译成简洁的句子。对于Web中的一些图像,往往会嵌入到一篇文章当中,例如很多含有图片的新闻报道。那么,如何用如此丰富的文本信息对图像中的高层语义进行归纳呢?同样,如何选择一幅图片对一段文本进行视觉的展示或者自动插图呢?针对这个问题,本文首次提出图像一文本互摘要(Mutual-Summarization)的方法来自动的用文本来描述给定的图片,或者用一系列图片来可视化一段文本。首先将Web的图像-文本数据空间划分为三个子数据空间,纯图像空间(PIS)、纯文本空间(PTS)以及图像-文本联合空间(ITJS),将ITJS作为最基本的知识库,起到桥梁作用。用文本来描述图像的问题,本文将图像从PIS映射到ITJS,此过程简化为图像分类问题,摘要由ITJS中的文本通过摘要模型抽出。对于用图像来可视化文本的问题,将过程反之。通过查全率、查准率等指标来衡量方法的有效性。针对不同的问题,本文设计了不同的实验,在自主收集的数据集以及公开的数据集上都进行了实验,与其他优秀的方法做了比较。通过对于各种评测指标P@n、MAP、NDCG、Accuracy的统计比较,证明了本文所提出方法的有效性。