论文部分内容阅读
随着信息技术和社交网络的迅猛发展,数字图像、文本、音频、视频等跨媒体数据正在改变着人们的生活和工作方式。如何使计算机理解跨媒体数据的语义内容和分析跨媒体数据之间的关联,已经成为跨媒体和模式识别领域的重要研究课题。本文以跨媒体数据为研究对象,针对跨媒体语义增强、跨媒体检索和多标签属性学习等关键问题开展了深入的研究工作,论文的主要创新性研究成果包括:1.提出一种跨媒体语义增强框架,并应用于基于内容的图像检索。跨媒体语义增强的目标是通过利用视觉特征和文本特征之间的对应关系,寻求一种有效的映射机制。基于这种映射,视觉特征的杂乱分布特性可以通过具有显著判别分布特性的文本特征进行改善。实验结果表明该方法可以有效地提升图像检索任务的性能。2.提出一种任务驱动的跨媒体检索算法(Task-specific Cross-media Retrieval,简称TSCR). TSCR通过联合优化成对图像和文本之间的相关性以及某种模态(文本或图像)特征向其对应语义空间的线性回归,从而获得两组将文本和图像原始特征投影到同构空间中的映射矩阵,分别用于图像检索文本和文本检索图像。实验结果验证了TSCR算法的有效性。3.提出一种深度语义匹配(deep Semantic Matching,简称deep-SM)算法用来解决跨媒体检索问题。deep-SM通过两种不同的深度神经网络将图像和文本映射到同构的语义空间中,进而实现两种模态数据之间的跨媒体检索。同时对比分析深度卷积神经网络(Convolutional Neural Network,简称CNN)的视觉特征对跨媒体检索的影响。实验结果验证了deep-SM算法和CNN视觉特征对跨媒体检索的有效性。4.提出一种HCP (Hypotheses-CNN-Pooling)深度学习框架用于解决多标签属性分类问题。HCP利用一种似物性推荐框(Hypotheses)筛选方法对每张多标签图片选取了少量具有代表性的Hypotheses,并通过共享的CNN和跨Hypotheses的池化(Pooling)策略构建了一个有效的多标签预测框架.HCP通过端到端的方式进行训练并在Pascal VOC 2007和VOC 2012两个数据集上获得了国际领先的分类性能。