论文部分内容阅读
计算机视觉作为人工智能领域的重要组成部分,近年来已经受到越来越多的关注。同时,随着互联网的发展,多媒体数据在人们的日常生活中已经必不可少,并且数据量也呈爆炸式增长,在多媒体内容理解方面完全依靠人工力量已经逐渐力不从心。基于这两个原因,如何使用计算机对多媒体数据的内容进行自动的理解已经成为近些年来的研究热点。为了能够更好的理解多媒体的内容,提取一个好的特征尤为重要,本文对于如何从多媒体数据中提取高质量的特征进行了研究。有别于传统的特征提取方法,本文研究的是无监督的特征学习算法,即使用一种学习方法能够自动的从多媒体数据中发现并提取特征。本文着重探讨了两类无监督特征学习算法:稀疏编码和特征学习,并对图像和视频的特征提取都进行了研究,一共提出三种无监督的特征提取算法。第一,使用稀疏编码算法从已经提取的图像特征点中进一步发现具有普适性的结构化信息。同时,改进了现有词袋算法的两个重要步骤,将图像的特征表示得更加精确。第二,使用深度学习算法对图像进行无监督的特征学习。我们改进了现有的神经网络结构,加入了马尔科夫转移概率模型,并将其应用于图像特征的提取。第三,使用深度学习算法对视频进行多模态特征提取,并应用于暴力视频的检测。这里,我们使用了深度学习算法对于视频中的运动、图像以及音频特征进行了融合和特征提取,更加准确地对暴力视频进行建模。