论文部分内容阅读
随着数据压缩、通信、存储等技术的迅猛发展,图像与视频数据日益增多,必须对其进行有效的管理及利用。因此,一项运用数据挖掘技术来处理图像与视频数据的新兴技术——“视频数据挖掘”应运而生。图像描述与视频描述均为视频数据挖掘的重要内容,称其为描述性视频数据挖掘。此外,图像描述与视频描述是计算机视觉和自然语言处理领域的重点以及难点,具有广阔的应用前景。针对目前图像及视频描述准确率较低的缺点,论文以提高图像及视频描述准确率为出发点,利用深度学习领域相关方法,对图像描述框架及视频描述框架进行设计,采用卷积神经网络相关模型对单幅图像与多幅图像进行特征提取,采用词向量模型对单词序列进行处理,以对图像及视频进行自然语言描述。对基于连续Skip-gram及深度学习的图像描述方法进行研究。为进一步提高图像描述的准确率,将连续Skip-gram模型引入生成图像描述的框架中。首先,利用连续Skip-gram模型学习单词的分布式表示,产生高质量的词向量,降低了词向量的计算复杂度。然后,利用区域卷积神经网络对图像进行目标检测及特征提取。最后,将词向量与图像特征向量分别作为循环神经网络的输入向量以及偏置向量,进而输出图像描述。与三类图像描述模型相比较,采用连续Skip-gram模型的图像描述框架提高了图像描述的准确率及该框架的泛化能力。对基于深度迁移学习的视频描述方法进行研究,构建了一个新的视频描述模型。该模型在现有视频描述框架的基础上,利用迁移学习中的深度域适应方法,实现图像与帧流域中语义特征的深度融合,将融合语义特征作为视频描述框架的输入,再结合视频输入与长短时记忆神经网络,生成视频的自然语言描述。与现有的七种视频描述模型相比较,利用深度域适应方法融合不同域中的语义特征,可以进一步提升视频描述的性能。