论文部分内容阅读
一个能够加快搜索视频的速度的方法是搜索特定类型的视频。因此,我们十分需要能对这些视频进行归类的计算工具,以此缩小语义鸿沟。对视频进行精确归类需要视频数据的良好表示,且需要有效和高效的模型来完成分类任务。提取适当的特性对于设计任何合理的模式分类器来说是至关重要的。因此,为了获得对视频内容的完整的理解,发展出很多技术,定义了很多视频特征以得到视频数据的良好表示。
每一段视频都包含三种类型的数据,分别为视频、音频和文本,基于此,前人已经做了很多工作以解决视频分类问题。这些视频分类方法大致可分为四类:基于文本的方法、基于音频的方法、基于视觉的方法以及混合方法,混合方法就是结合了前三种方法的一种方法。
在本文中,为解决视频分类问题,有两个重要的任务:
视频数据的高效表示
执行分类任务的高效、精确的模型
为了完成这些任务,本次研究中利用低级别的视觉特征来表示视频,然后,首先我们探测视频中的镜头,提取出镜头中的主帧,接着我们选择主帧的视觉特点,并用它们来训练我们的模型,最后也使用在测试中。颜色是图像表示的一个重要属性。颜色直方图表示了一副图片中的色彩分布,是用于镜头检测、关键帧提取和特征提取的最广泛使用的颜色特征之一。许多研究者采用基于颜色直方图比较的技术来达到箭头检测的目的,因为颜色直方图比较技术有着很强的鲁棒性。通常情况下,这个研究最关心的是整个视频的分类而不是将帧分类,因此我们省略了镜头检测的过程。所以,这个研究首先计算输入视频的颜色统计来提取主帧。这些帧包含的颜色和颜色随着时间的改变是最重要最基础的数据。这个研究利用基于色彩的颜色直方图来了解为什么两个帧是相似的,正如前面所述,使用颜色直方图是因为其简单有效的描述。
颜色直方图一个普遍的问题就是很难通过使用颜色直方图的特殊颜色来确定像素的位置,这种特殊颜能够帮助精确地检测到剪辑或相机移动,如同前面提到的一样,一些学者喜欢将帧分割成区来获得空间信息。但是对于我们这个模型,我们关心的不是这些归类的镜头或者场景,而是整个视频,因此,我们经常会忽略这个问题。颜色直方图的另一个问题就是它对噪声干扰很敏感,如照明强度的变化。例如,两个帧可能在不同的光线条件下产生,那么比较这两个帧就会出错。为了克服这个问题,本次研究中采取了一些学者提出的方法,为每一个框架规范颜色通道,并将其移动到一个色度空间,这样所有帧都在相同的照明条件下,所有的帧都被转换为灰度。那么,本次研究中将通过以下步骤来选择主帧:逐个提取视频中的帧,然后计算出连续帧的直方图差,然后再次计算出整个视频帧间直方图差,并与阈值的差值进行比较,然后将其作为关键帧。
关键帧确定后,许多特征便可以从这些关键帧中提取,比如基于颜色的特征、基于纹理的特征、基于形状的特征。使用低级别的特征,尤其是视觉特征的数据集所代表的大量的数据,使得其计算上变得不可行或者学习困难。在我们的研究中,采用离散余弦变换(DCT)来变换框架,来提取特征和减少数据的维数。离散余弦变换(DCT)具有一些特殊的性质,这些性质使它进行图像和视频处理时产生强大的变换。DCT具有较强的数据解相关能力,并且有实现离散余弦变换的快速算法。基于DCT变换的特征提取分为两个步骤。
第一步,将DCT应用到整个框架得到DCT系数,第二步,选择一些系数构成特征向量。
对数据进行充分的缩减后,然后下一步就是对视频内容建模,训练分类器,用分类器对各种不同类型的视频进行分类。其中,我们选用支持向量机(SVM)作为机器学习的方法,基于核心的逻辑回归(KLR)作为统计方法。使用回归模型来确定变量之间的关系,采用SVM分类实例对象,支持向量机和模式分类是通过利用非线性变换(核函数)将输入模式映射到高维特征空间中,然后在特征空间上建立最优超平面作为类间的决策面。输入模式的非线性转换使得模式类别在特征空间是线性可分的。根据覆盖定理,当将多维空间中的非线性可分模式转换为一个新的很可能是线性可分的特征空间时,这种转换是非线性的,并且这个特征空间的维数足够高。
尽管可使用的集成技术已经有很多了,比如贝叶斯方差分解,bagging,boosting和random forests,在我们的工作中,我们使用bagging技术,构建支持向量机的集成,通过引导方法独自训练几个支持向量机(SVM),然后使用合适的技术整合他们。为此,本次研究中使用的引导技术如下:引导程序从给定的数据集中,通过重复随机采样创建K个复制的训练数据集。给定训练集的每一个样本在任意特定复制的训练数据集上可能出现多次或者一次也不出现。
然后,在本次研究中,构造了变量X和Y,X变量表示由经过离散小波变换和主成分分析后得到的视频镜头的特征,Y变量决定是否手动设置视频镜头。训练这K个分类器后,一个测试实例归于获得最多票数的类中;bagging通过减少基本分类器的方差来改善泛化误差。Bagging的性能取决于基本分类器的稳定性,而对于这样的任务,支持向量机(SVM)被认为是稳定的分类器。
内核逻辑回归(KLR)也作为统计方法来执行分类任务。逻辑回归(LR)的内核版本,即之前提到的内核逻辑回归(KLR),证明了其作为分类器的效率,KLR提供了一个基于最大似然参数而不是直接最小风险化的后验概率,并且扩展到了多分类问题上。使用KLR的一个潜在的问题是,KLR的经典的公示不能扩展至大的问题,如在视频分类中,并不像支持向量机(SVM)那样,内核逻辑回归目标优化不会导致稀疏模式。为了解决这一问题,我们采用截断牛顿法,该方法能够有效地解决大规模优化问题。截断牛顿法首次被Komarek和Moore使用,他们表明截断-正规化迭代加权最小二乘法(TR-IRLS)可以有效的在LR上实现分类大规模数据集,并且能优于支持向量机(SVM)算法。还有些作者采用的是信赖域牛顿法,该方法是一种分别用截断牛顿法和内点截断牛顿法解决大规模LR问题的一种类型。对于牛顿法,大多采用共轭梯度(CG)算法,而不是执行所有迭代直到满足停止条件,在使用截断牛顿法可以更早打断循环,以此在收敛速度和迭代成本间取得良好的平衡。尽管计算机环境的演变增强了这些内核逻辑回归的优化技术的性能,但是基于庞大数据的KLR计算方法依然是个挑战。
因此,为了将KLR用于视频分类,本研究采用IRLS来实现迭代加权核逻辑回归极大似然估计(MLEIWKLR)。和SVM中过程一样,构建X和Y变量,X变量代表由DCT_ PCA数据表示的视频镜头,Y变量表示手动设置视频镜头,然后IWKL是基于为分类准备的数据上实现,旨在获得显著的精度,使IWKLR成为视频分类的一种有效方法。
因此,在本研究中尝试提出了一种能够在工作效率上媲美SVM的KLR分类方法。
为了验证我们的方法,首先需要收集真实的数据。从youtube和youku网站下载视频组成我们的数据集,并从TRECVid(Trec2002)获取关键帧,这些视频包括各种各样的影片片段,新闻报道,和不同类型的运动赛事,然后分别用支持向量机集成SVM和内核逻辑回归(KLR)这两种方法对视频进行分类。之所以选择这三类视频作为测试数据是因为在之前发表的几篇论文中使用的就是这三类数据。数据集中共有240个不同的视频片段,22000帧关键帧,我们输入的是未压缩的数字视频,每一帧都是RGB图片。采用以下五个标准评估预测结果:相关系数(MCC)、QTotal、阳性预测值(PPV)、灵敏度和特异度。FP=假阳性,FN=假阴性,TP=真阳性,TN=真阴性。相关系数取值在-1到1之间,1表示完全相关,-1表示完全反相关,0表示不相关。
使用SVM的集成可以在减少时间的同时提高准确性,这甚至超出了我们的预设。尽管SVM的集成与单独的SVM相比准确性只是有微弱的提高,但是结果显示SVM的集成与单独的SVM相比,在时间上有较大的提高。
在相同数据集下采用三种不同的视频分类方法对IWKLR的性能进行测试。使用有着相同高斯内核的KLR表明IWKLR方法在性能方面可以有很大的提升。对这篇论文中使用到的两种方法进行比较,结果显示SVM集成算法的性能与单一的SVM相差不多,但是与基于IWKLR的视频分类算法相比,结果更好。另外,SVM在其他性能指标上,如MCC、精确度(Qpreddicted)、召回率(Qobserved),也比IWKLR优越。但是KLR在使用正确的算法时也可以得到和SVM相差无几的结果。我们也相信有许多因素会影响结果,例如不同的特征提取的方法和预处理操作会产生不同的结果。
到目前为止,大部分已完成的视频分类研究中都没有一套针对各类视频的通用指南,因此实验中的视频种类数,训练集数和视频长度长都有所不同。
最后,我们设计了一种基于SVMa和逻辑回归(LR)的视频分类混合方法。首先将SVMs分类器随机均分为不同集;然后采用集群模型中获取的输入训练各个SVMs集;首先使用k-均值聚类分析算法,然后用LR将各类SVMs聚合。我们的实验表明,相对上述两种方法,混合方法在视频分类上能获得更好的性能。
在本次研究中,我们提出了快速特征选择和学习方法,并基于此方法实现了基于视觉特征的视频分类实验。为在机器学习中开发新的、强大的分类器上作出贡献。虽然这篇论文的优势主要表现在基于特定的上下文特征选择方法的有效性,但是我们的方法是通用的,能够与任意机器学习算法结合使用。
每一段视频都包含三种类型的数据,分别为视频、音频和文本,基于此,前人已经做了很多工作以解决视频分类问题。这些视频分类方法大致可分为四类:基于文本的方法、基于音频的方法、基于视觉的方法以及混合方法,混合方法就是结合了前三种方法的一种方法。
在本文中,为解决视频分类问题,有两个重要的任务:
视频数据的高效表示
执行分类任务的高效、精确的模型
为了完成这些任务,本次研究中利用低级别的视觉特征来表示视频,然后,首先我们探测视频中的镜头,提取出镜头中的主帧,接着我们选择主帧的视觉特点,并用它们来训练我们的模型,最后也使用在测试中。颜色是图像表示的一个重要属性。颜色直方图表示了一副图片中的色彩分布,是用于镜头检测、关键帧提取和特征提取的最广泛使用的颜色特征之一。许多研究者采用基于颜色直方图比较的技术来达到箭头检测的目的,因为颜色直方图比较技术有着很强的鲁棒性。通常情况下,这个研究最关心的是整个视频的分类而不是将帧分类,因此我们省略了镜头检测的过程。所以,这个研究首先计算输入视频的颜色统计来提取主帧。这些帧包含的颜色和颜色随着时间的改变是最重要最基础的数据。这个研究利用基于色彩的颜色直方图来了解为什么两个帧是相似的,正如前面所述,使用颜色直方图是因为其简单有效的描述。
颜色直方图一个普遍的问题就是很难通过使用颜色直方图的特殊颜色来确定像素的位置,这种特殊颜能够帮助精确地检测到剪辑或相机移动,如同前面提到的一样,一些学者喜欢将帧分割成区来获得空间信息。但是对于我们这个模型,我们关心的不是这些归类的镜头或者场景,而是整个视频,因此,我们经常会忽略这个问题。颜色直方图的另一个问题就是它对噪声干扰很敏感,如照明强度的变化。例如,两个帧可能在不同的光线条件下产生,那么比较这两个帧就会出错。为了克服这个问题,本次研究中采取了一些学者提出的方法,为每一个框架规范颜色通道,并将其移动到一个色度空间,这样所有帧都在相同的照明条件下,所有的帧都被转换为灰度。那么,本次研究中将通过以下步骤来选择主帧:逐个提取视频中的帧,然后计算出连续帧的直方图差,然后再次计算出整个视频帧间直方图差,并与阈值的差值进行比较,然后将其作为关键帧。
关键帧确定后,许多特征便可以从这些关键帧中提取,比如基于颜色的特征、基于纹理的特征、基于形状的特征。使用低级别的特征,尤其是视觉特征的数据集所代表的大量的数据,使得其计算上变得不可行或者学习困难。在我们的研究中,采用离散余弦变换(DCT)来变换框架,来提取特征和减少数据的维数。离散余弦变换(DCT)具有一些特殊的性质,这些性质使它进行图像和视频处理时产生强大的变换。DCT具有较强的数据解相关能力,并且有实现离散余弦变换的快速算法。基于DCT变换的特征提取分为两个步骤。
第一步,将DCT应用到整个框架得到DCT系数,第二步,选择一些系数构成特征向量。
对数据进行充分的缩减后,然后下一步就是对视频内容建模,训练分类器,用分类器对各种不同类型的视频进行分类。其中,我们选用支持向量机(SVM)作为机器学习的方法,基于核心的逻辑回归(KLR)作为统计方法。使用回归模型来确定变量之间的关系,采用SVM分类实例对象,支持向量机和模式分类是通过利用非线性变换(核函数)将输入模式映射到高维特征空间中,然后在特征空间上建立最优超平面作为类间的决策面。输入模式的非线性转换使得模式类别在特征空间是线性可分的。根据覆盖定理,当将多维空间中的非线性可分模式转换为一个新的很可能是线性可分的特征空间时,这种转换是非线性的,并且这个特征空间的维数足够高。
尽管可使用的集成技术已经有很多了,比如贝叶斯方差分解,bagging,boosting和random forests,在我们的工作中,我们使用bagging技术,构建支持向量机的集成,通过引导方法独自训练几个支持向量机(SVM),然后使用合适的技术整合他们。为此,本次研究中使用的引导技术如下:引导程序从给定的数据集中,通过重复随机采样创建K个复制的训练数据集。给定训练集的每一个样本在任意特定复制的训练数据集上可能出现多次或者一次也不出现。
然后,在本次研究中,构造了变量X和Y,X变量表示由经过离散小波变换和主成分分析后得到的视频镜头的特征,Y变量决定是否手动设置视频镜头。训练这K个分类器后,一个测试实例归于获得最多票数的类中;bagging通过减少基本分类器的方差来改善泛化误差。Bagging的性能取决于基本分类器的稳定性,而对于这样的任务,支持向量机(SVM)被认为是稳定的分类器。
内核逻辑回归(KLR)也作为统计方法来执行分类任务。逻辑回归(LR)的内核版本,即之前提到的内核逻辑回归(KLR),证明了其作为分类器的效率,KLR提供了一个基于最大似然参数而不是直接最小风险化的后验概率,并且扩展到了多分类问题上。使用KLR的一个潜在的问题是,KLR的经典的公示不能扩展至大的问题,如在视频分类中,并不像支持向量机(SVM)那样,内核逻辑回归目标优化不会导致稀疏模式。为了解决这一问题,我们采用截断牛顿法,该方法能够有效地解决大规模优化问题。截断牛顿法首次被Komarek和Moore使用,他们表明截断-正规化迭代加权最小二乘法(TR-IRLS)可以有效的在LR上实现分类大规模数据集,并且能优于支持向量机(SVM)算法。还有些作者采用的是信赖域牛顿法,该方法是一种分别用截断牛顿法和内点截断牛顿法解决大规模LR问题的一种类型。对于牛顿法,大多采用共轭梯度(CG)算法,而不是执行所有迭代直到满足停止条件,在使用截断牛顿法可以更早打断循环,以此在收敛速度和迭代成本间取得良好的平衡。尽管计算机环境的演变增强了这些内核逻辑回归的优化技术的性能,但是基于庞大数据的KLR计算方法依然是个挑战。
因此,为了将KLR用于视频分类,本研究采用IRLS来实现迭代加权核逻辑回归极大似然估计(MLEIWKLR)。和SVM中过程一样,构建X和Y变量,X变量代表由DCT_ PCA数据表示的视频镜头,Y变量表示手动设置视频镜头,然后IWKL是基于为分类准备的数据上实现,旨在获得显著的精度,使IWKLR成为视频分类的一种有效方法。
因此,在本研究中尝试提出了一种能够在工作效率上媲美SVM的KLR分类方法。
为了验证我们的方法,首先需要收集真实的数据。从youtube和youku网站下载视频组成我们的数据集,并从TRECVid(Trec2002)获取关键帧,这些视频包括各种各样的影片片段,新闻报道,和不同类型的运动赛事,然后分别用支持向量机集成SVM和内核逻辑回归(KLR)这两种方法对视频进行分类。之所以选择这三类视频作为测试数据是因为在之前发表的几篇论文中使用的就是这三类数据。数据集中共有240个不同的视频片段,22000帧关键帧,我们输入的是未压缩的数字视频,每一帧都是RGB图片。采用以下五个标准评估预测结果:相关系数(MCC)、QTotal、阳性预测值(PPV)、灵敏度和特异度。FP=假阳性,FN=假阴性,TP=真阳性,TN=真阴性。相关系数取值在-1到1之间,1表示完全相关,-1表示完全反相关,0表示不相关。
使用SVM的集成可以在减少时间的同时提高准确性,这甚至超出了我们的预设。尽管SVM的集成与单独的SVM相比准确性只是有微弱的提高,但是结果显示SVM的集成与单独的SVM相比,在时间上有较大的提高。
在相同数据集下采用三种不同的视频分类方法对IWKLR的性能进行测试。使用有着相同高斯内核的KLR表明IWKLR方法在性能方面可以有很大的提升。对这篇论文中使用到的两种方法进行比较,结果显示SVM集成算法的性能与单一的SVM相差不多,但是与基于IWKLR的视频分类算法相比,结果更好。另外,SVM在其他性能指标上,如MCC、精确度(Qpreddicted)、召回率(Qobserved),也比IWKLR优越。但是KLR在使用正确的算法时也可以得到和SVM相差无几的结果。我们也相信有许多因素会影响结果,例如不同的特征提取的方法和预处理操作会产生不同的结果。
到目前为止,大部分已完成的视频分类研究中都没有一套针对各类视频的通用指南,因此实验中的视频种类数,训练集数和视频长度长都有所不同。
最后,我们设计了一种基于SVMa和逻辑回归(LR)的视频分类混合方法。首先将SVMs分类器随机均分为不同集;然后采用集群模型中获取的输入训练各个SVMs集;首先使用k-均值聚类分析算法,然后用LR将各类SVMs聚合。我们的实验表明,相对上述两种方法,混合方法在视频分类上能获得更好的性能。
在本次研究中,我们提出了快速特征选择和学习方法,并基于此方法实现了基于视觉特征的视频分类实验。为在机器学习中开发新的、强大的分类器上作出贡献。虽然这篇论文的优势主要表现在基于特定的上下文特征选择方法的有效性,但是我们的方法是通用的,能够与任意机器学习算法结合使用。