WEB图像排序与互摘要

来源 :浙江大学 | 被引量 : 0次 | 上传用户:penguin669
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,随着手机、数码相机、平板电脑等移动设备技术的不断进步,越来越多的图像、视频等媒体不断涌入互联网并且持续传播扩散。面对如此大规模的Web图像数据,如何有效的进行管理、组织和检索,已经成为学术界和工业界面临的重要问题。本文主要关注图像检索中的三个子问题:(1)图像排序和重排序;(2)静态图像中的动作识别和检索;(3)图像一文本互摘要。1、图像排序和重排序:排序是信息检索领域的一个重要问题。将用户最想得到的结果排在尽量靠前的位置,是排序研究的关注点。本文借助排序学习(Learning To Rank)的思想,结合图像检索的特点以及具体问题,将基于遗传规划(Genetic Programming)的排序模型应用到Web图像检索的任务中,综合考虑Web图像的多种特征,例如文本、视觉信息、链接关系等,将Mean Average Precision作为模型的适应度函数,设计迭代策略,求得近似最优解。在对图像排序的研究中,发现传统的排序模型大多忽视了图像本质的视觉信息,特别是检索结果的视觉多样性的丢失,不利于用户尽快找到想要的结果。针对此问题,本文提出了Dual-Ranking模型来改善图像检索的排序结果多样性的问题,首先构建一个多部图模型(Multipartite Graph Model)来表示图像的文本、视觉以及质量三部分特征描述子,然后根据普聚类的原理构建一个有约束的多目标优化问题,借助于半正定规划(SDP)求解策略进行求解,完成聚类过程。Dual-Rank框架通过簇间排序(Inter-cluster Rank)以及簇内排序(Intra-cluster Rank)两种排序策略分别对图像簇以及每一簇中的图像进行排序,选择代表性的图像放在簇表面进行展示,达到重排序的目的。2、静态图像中的动作识别和检索:在对图像进行排序研究的过程当中,发现对于一些表示动作(Action)或者事件(Event)的检索结果仍然依赖于文本中的关键词匹配技术,并没有考虑对于图像的高层语义的理解。为了解决这个问题,本文为多种动作(Action)设计了基于多核学习的视觉识别和分类模型。首先定义模板集合,然后训练模型并且求解多核组合的优化问题。通过动作识别模型进一步过滤动作检索的结果,保证语义相似性的前提下,提高结果的视觉相似性。3、图像一文本互摘要:在研究静态图像中动作识别和检索的过程中,如果能够对图像进行高层复杂语义的标注,例如用一句话或者一段文字描述图像中的语义信息,将是十分有意义的工作,能够进一步提高图像语义标注的完整性,将比单纯关键词和标签的标注含有更加丰富的信息。所以,本文提出了一个简单的方法对静态图像中发生的事情进行描述句子的自动生成。把图像中的目标(等价于句子中的主语或者宾语、宾语补足语等)看作一种隐藏信息。将句子生成问题简化成动作检测和场景分类问题,设计一个有隐含变量的多核学习问题进行动作检测以及场景分类,构建二元组<动作,场景>,最后通过一个定义好的句子模板将二元组翻译成简洁的句子。对于Web中的一些图像,往往会嵌入到一篇文章当中,例如很多含有图片的新闻报道。那么,如何用如此丰富的文本信息对图像中的高层语义进行归纳呢?同样,如何选择一幅图片对一段文本进行视觉的展示或者自动插图呢?针对这个问题,本文首次提出图像一文本互摘要(Mutual-Summarization)的方法来自动的用文本来描述给定的图片,或者用一系列图片来可视化一段文本。首先将Web的图像-文本数据空间划分为三个子数据空间,纯图像空间(PIS)、纯文本空间(PTS)以及图像-文本联合空间(ITJS),将ITJS作为最基本的知识库,起到桥梁作用。用文本来描述图像的问题,本文将图像从PIS映射到ITJS,此过程简化为图像分类问题,摘要由ITJS中的文本通过摘要模型抽出。对于用图像来可视化文本的问题,将过程反之。通过查全率、查准率等指标来衡量方法的有效性。针对不同的问题,本文设计了不同的实验,在自主收集的数据集以及公开的数据集上都进行了实验,与其他优秀的方法做了比较。通过对于各种评测指标P@n、MAP、NDCG、Accuracy的统计比较,证明了本文所提出方法的有效性。
其他文献
智能交通系统是利用尖端的电子通信技术,形成人员、公路和车辆三位一体的新公路交通系统的总称。交通管理与控制系统是智能交通系统领域当中一项重要的研究内容,而交通流量预
光在自然界传播时,由于物理规律以及不同物质具有不同的折射率散射率等光学特性,就会产生丰富多彩的视觉效果,比如阴影、表面高光、环境光遮挡以及一些材质的半透明效果等。
人脸识别技术是一种重要的生物特征识别技术,因其友好、直接等使用特点已广泛应用于安全、商业等许多领域。人脸识别系统涉及大量数据的比对操作,对于人脸数据库较小的识别系统
中文语料库的分类与检索的研究对于语料库的管理和学习使用具有相当重要的意义。面对具有海量信息的语料库,人们不可能在短时间内对这些数据进行分类并获得其中所需要的内容,这
为了建立对区域范围内各医疗机构业务联动,实现数据共享或业务协同,需要各医疗机构在个人身份上具有统一的身份机制,此项工作是区域卫生信息平台建设的基本任务。由于发卡机
随着Web2.0应用的快速发展,越来越多由用户生成的内容成为了互联网上的一个重要信息来源,出现了许多社会媒体网络站点,如Flickr、Facebook和YouTube等网站。这些网站中存在大量
当前,指纹识别仍然是一个研究热点。经过国内外同行的多年努力,指纹识别在越来越多的领域得到了广泛的应用,但是指纹识别中仍然存在许多问题,如高安全应用问题,多模板集成问
数据流挖掘是当今的热点问题之一,具有广阔的发展前景。离群点检测是数据挖掘的基本任务之一,具有非常重要的研究价值,始终受到研究人员的重视。虽然传统静态数据集的离群点检测
随着计算机技术的快速发展,智能交通系统成为了世界各国的研究热点,它是解决交通问题的一个有效办法,为交通管理的发展指明了方向。智能交通系统将先进的信息技术以及计算机技术
随着信息化程度的不断提高,海量的数据存在于实际的应用中。但海量的数据中往往存在大量的冗余,所以,剔除这些冗余可以大大提高数据的处理能力。作为一种处理不精确、不一致