论文部分内容阅读
随着计算机处理能力的提高、互联网上各种社会媒体共享平台的发展,多媒体数据(图像、音频和视频)逐渐成为了人们日常生活中记录和传播信息的主要载体之一。视频数据作为多媒体数据的一种,可以对现实生活中发生的场景和声音进行记录与存储,具有视听性、信息丰富等特点,从而在安全监控、工业制造、医疗诊断和娱乐等领域有广泛的应用。然而,视频数据总量的急剧上升使得用户很难从大量视频数据库中找到并选择有用的或感兴趣的视频数据。用户迫切需要研究人员能够实现对视频进行管理、推荐和浏览的应用。个性化推荐系统通过为用户推荐和其兴趣最相关的数据,能够有效的解决“数据过载”的问题。在多媒体数据分析和海量数据的推荐系统相结合的情况下,视频推荐成为近年来研究的热点之一。传统的视频推荐根据视频的元数据(文本)或者视频的图像内容(图像)作为视频内容分析,仅仅考虑了视频单个模态的内容分析。然而,视频数据包含文本、图像和音频多个模态的信息,多模态内容及其中的关联关系并没有被挖掘。另外,大部分视频推荐系统将视频对象作为一个整体,并没有考虑视频在时域上的信息。因此,现有的视频推荐系统无法实现视频的多视角推荐,例如:摘要推荐、视频的跨模态推荐。本文从多模态内容分析的角度,对多视角视频推荐中的相关关键问题进行了研究。论文的主要研究内容及创新点如下:(1)针对视频基于语义的相似性度量的问题,本文提出了一种基于中间语义的度量方法,并同时实现了视频的标注和距离度量学习。在单模态标签的基础上,提出了多模态标签来描述视频中的多模态语义信息。进一步采用多核学习的架构将多个模态的语义进行结合,从而将底层多模态特征映射到一个统一的中间语义空间,并基于中间语义空间对视频之间的相似性度量函数进行学习,从而解决了传统度量方法无法对视频的语义相似性进行度量的问题。在真实视频数据集上的实验结果显示了本文所提出方法比传统的度量方法能更有效地度量视频在语义上的相似性;(2)针对视频进行多模态内容分析困难和推荐系统中用户评分记录不足的两个问题,本文提出了多模态内容分析和统一表示的方法,并采用半监督增强的推荐算法来对用户的喜好进行增强。通过从网络上收集与视频相关联的多媒体数据并进行多模态内容分析,对多种模态的数据进行特征提取、建立统一的特征表示,解决了直接进行视频内容分析时存在的时间代价大、可行性低的问题。对推荐系统中部分评分记录少的用户,采用自训练的学习框架进行用户喜好增强,解决了用户记录不足时对推荐系统性能的影响。通过在标准数据集上的实验与分析,实验结果显示了该方法的有效性;(3)针对用户难以快速浏览推荐系统返回的所有视频的问题,本文提出了根据用户需求生成个性化视频摘要的方法。对视频中人物的情感、人物之间的交互关系进行挖掘,并提出了交互情感RoleNet来描述挖掘的结果,从而将视频内容转化为人物关系的序列。采用序列数据挖掘的方法对人物关系的序列进行挖掘,得到包含语义内容的视频摘要结果,从而解决了从视频中提取基于语义的视频摘要的问题。针对不同用户的需求,提出了基于电影视频结构的摘要和以人物为中心的视频摘要,满足了不同用户对视频摘要的个性化要求。通过在真实数据集下进行主观和客观实验分析,实验结果显示本文的方法能够有效地对视频中的语义内容进行摘要;(4)针对视频推荐系统只能返回单一模态的推荐结果的局限性,提出了根据用户-视频信息进行文本和音频推荐的方法。通过多模态深度学习对多个模态特征之间关系进行建模,建立了多个模态统一的特征表示,为进一步的跨模态推荐提供了基础。基于学习到的多模态统一表示方法,实现了根据用户在视频领域的喜好进行视频故事情节和音乐的跨模态推荐。在标准数据集上的实验结果验证了该方法能够有效地实现多个模态的推荐,提供了多模态的视频推荐结果。综上所述,论文主要工作为基于多模态内容分析的多视角视频推荐方法和技术,探索了多模态特征提取和表示的方法。从特征融合、结果融合和方法融合三个层次探讨了多模态视频推荐的方法,对视频度量学习、视频推荐、摘要推荐和跨模态推荐中存在的问题进行了分析和解决。本文的研究成果为建立和实现多视角的视频推荐提供了理论基础和支撑技术。