论文部分内容阅读
【摘 要】本文在建立HSV模型的直方图的基础上,通过量化来表示视频帧的特征,并计算帧间相似度。提出了一种结合滑动窗口的自适应双阈值法,来检测视频的镜头分割。实验证明该方法能够充分适应视频帧变化,在进行视频分割时取得了较好的效果。
【关键词】镜头分割、自适应双阈值、Hsv模型
1引言
随着信息技术的飞速发展,媒体技术得到广泛应用,视频数据大量涌现。如何对这些海量信息进行有效的管理和检索已成为一项重要的研究课题。 镜头分割是基于内容的视频摘要技术、视频检索的的关键技术。
视频是是一个具有超强时间结构性的特点的图像序列的集合。一般我们以镜头作为视频的基本单位,它由摄像机不间断拍摄的一组帧序列组成,帧就是视频中的一副图像。由于视频剪辑手法的多样性,这样产生了多种镜头切换方式,突变和渐变便是镜头切换的两种基本类型。突变是指一个镜头与下一个镜头之间没有过渡,直接切换;渐变则加入了一些视频编辑特效,由一个镜头渐渐转变为后续镜头。渐变包括淡入淡出、溶解、划变等。镜头分割的基本任务就是要检测出采用了各种编辑技巧的视频中镜头切换的位置,并分解视频。
一般来说,镜头切换时,相邻的图像帧之间背景、人物、运动等等都会有较为明显的变化,而在一个镜头内各帧之间的变化不明显、差异较小。镜头分割就是通过相邻帧差异的比较来探测镜头边界的,当这个差异超过给定的阈值时,则判定为一个新的镜头。
2基于自适应双阈值的镜头分割算法
如何准确地区分出子视频的临界点,即镜头边界检测就成为了我们研究的重点。其關键在于选择合适的特征描述符和设置阈值。本文在借鉴主流的视频分割技术的基础上,通过建立HSV模型颜色直方图来表示视频帧的特征,并在此基础上进行镜头边界检测。
2.1 基于HSV颜色模型的直方图
从图像中一般都能得到RGB三色值,通过以下公式可以将RGB的值计算HSV三个分量的值:
在得出HSV直方图后,我们便可以由此来比较两幅图像的相似性。对于某一帧图像P,其直方图的特征矢量为P(p1,p2,…,pL),其中pi为归一化的比例值,取值范围为0到由上式可知,两幅图像相似度Sim的取值范围为0到1,两幅图像的差异越小值越大,如果两幅图像的颜色分布相同,那么它们的相似度为1。
相邻两帧图像之间相似度的计算是视频镜头分割的基础。在进行镜头分割时,从视频文件的第一帧开始逐一计算相邻帧的相似度,将其与阈值进行比较,从而检测出镜头边界,将原来的视频分割成若干个镜头。
2.2镜头边界检测
镜头边界检测就是根据镜头之间的切换所带来的特征差异来实现视频分割的,其方法是计算相邻两帧的距离,将其与阈值进行比较,如果距离超过一定阈值则认为是一个新镜头,否则就属于同一个镜头。当视频镜头突变时,相邻两帧间差异较大,容易判断;当发生渐变时由于镜头之间的切换经过了多帧的变化,相邻帧之间变化不明显,因而较难判断。渐变检测则成为镜头检测中的难点,阈值的确定显得尤为重要。
2.2.1 阈值的选择
阈值主要有全局阈值[1]、局部阈值[2]等。全局阈值由于它在整个视频内采用固定的阈值分割视频,当视频帧前后变化较小时,往往在检测渐变镜头时漏检或是误判。而局部阈值设定跟视频帧本身的图像信息相关,能更好地适应不同的视频文件和同一视频文件中的局部特征,在检测镜头渐变时效果明显优于全局阈值。
为了能够同时检测突变和渐变的镜头边界检测,本文将采用双阈值法,同时结合滑动窗口计算自适应局部阈值。自适应阈值通过考察某一局部的特征信息,其取值与视频流的局部分段的特征息息相关,并计算过程中自动调整取值,因此自适应阈值比全局阈值和局部阈值对视频信息的适应能力更好。
2.2.2自适应局部双阈值法
双阂值法是通过设置TH和TL两个阈值(其中TH>TL),突变镜头可以直接用TH检测,而渐变镜头则需要TH和TL共同检测。我们定义帧fi和fi+1的颜色直方图差异即两帧相似度为Di,利用公式(9)计算。两帧的直方图差异大小直接影响值的大小,两者成正比。镜头突变检测时,如果两帧相似度大于TH,即Di>TH,那么我们可以认为突变是从第i帧后发生的,前面镜头的最后一帧为fi,而突变后镜头的第一帧为fi+1。而当Di大于TL小于TH时,那么我们可以认为渐变镜头的第一帧为帧fi+1,随后计算后序相邻帧的帧差Di+1和fi+1帧与其后第k帧(k=i+1,i +2,i +3,…)的直方图差异值,由于没有两个帧完全相同,每两个帧都有或多或少的帧差,导致最后的帧差异值会越来越大,我们将这个差异值称为累计直方图差异SumD,如果往后碰到第fn帧与fn+1两帧的帧差DnTH,那么认为找到了渐变镜头的最后一帧fn。
自适应局部双阈值的计算方法为: 设计一个滑动窗口,滑动窗口的宽度 W 初始化为 1 帧,步长为 1。根据公式(9)逐个计算滑动窗口内相邻两帧间的颜色直方图差异为Di。
然后根据式(10)和式(11) 计算滑动窗口内的相邻帧间的颜色直方图差异的平均值G和标准方差R。
为了检测本文算法的有效性,随机抽取了不同类型的4个视频片段,并分别用本文算法、局部单阈值和全局阈值算法进行检测,得到统计数据如表1和表2所示,反映了使用本文算法检测出的镜头数查全率和查准率均高于局部单阈值和全局阈值算法,尤其比全局阈值法高出很多。其中,实际镜头数为人工目测分析得出的镜头数目。实验结果表明,本文算法在检测不同类型不同长度的视频片段时,其查全率和查准率相对较高,而且具有广泛的适应性。当检测的视频片段较长时,局部单阈值虽能自动计算阈值,具有一定的自适应性,但由于只有一个阈值,在检测渐变镜头时效果不明显,因而漏检和误检情况较明显。当采用全局阈值算法检测较长的视频片段时,其查全率和查准率则明显偏低,效果与本文算法相差较大。
4小结
本文在建立HSV模型颜色直方图的基础上,经过量化来表示视频帧的特征,计算帧间相似度。通过帧间相似度与双阈值的比较,能够同时检测突变和渐变。自适应阈值结合动态滑动窗口能够通过计算机的计算得到,能充分适应局部帧变化,经过实验证明,这种方法在进行镜头分割时取得了很好的效果。
参考文献:
[1] 曹建荣. 一种基于语义的视频场景分割算法[J]. 中国图像图形学报,2006,11(11)
[2]付彦伟,多视点视频内容分析与摘要技术研究, (D),硕士学位论文,南京大学,2011
[3] 陈春雨,姚秋香,乔玉龙.基于帧差法和边缘检测法的视频分割算法[J].济南大学学报(自然科学版),2012,26(1)
基金项目:湖南省教育厅科学研究项目(编号:12C0955)资助
【关键词】镜头分割、自适应双阈值、Hsv模型
1引言
随着信息技术的飞速发展,媒体技术得到广泛应用,视频数据大量涌现。如何对这些海量信息进行有效的管理和检索已成为一项重要的研究课题。 镜头分割是基于内容的视频摘要技术、视频检索的的关键技术。
视频是是一个具有超强时间结构性的特点的图像序列的集合。一般我们以镜头作为视频的基本单位,它由摄像机不间断拍摄的一组帧序列组成,帧就是视频中的一副图像。由于视频剪辑手法的多样性,这样产生了多种镜头切换方式,突变和渐变便是镜头切换的两种基本类型。突变是指一个镜头与下一个镜头之间没有过渡,直接切换;渐变则加入了一些视频编辑特效,由一个镜头渐渐转变为后续镜头。渐变包括淡入淡出、溶解、划变等。镜头分割的基本任务就是要检测出采用了各种编辑技巧的视频中镜头切换的位置,并分解视频。
一般来说,镜头切换时,相邻的图像帧之间背景、人物、运动等等都会有较为明显的变化,而在一个镜头内各帧之间的变化不明显、差异较小。镜头分割就是通过相邻帧差异的比较来探测镜头边界的,当这个差异超过给定的阈值时,则判定为一个新的镜头。
2基于自适应双阈值的镜头分割算法
如何准确地区分出子视频的临界点,即镜头边界检测就成为了我们研究的重点。其關键在于选择合适的特征描述符和设置阈值。本文在借鉴主流的视频分割技术的基础上,通过建立HSV模型颜色直方图来表示视频帧的特征,并在此基础上进行镜头边界检测。
2.1 基于HSV颜色模型的直方图
从图像中一般都能得到RGB三色值,通过以下公式可以将RGB的值计算HSV三个分量的值:
在得出HSV直方图后,我们便可以由此来比较两幅图像的相似性。对于某一帧图像P,其直方图的特征矢量为P(p1,p2,…,pL),其中pi为归一化的比例值,取值范围为0到由上式可知,两幅图像相似度Sim的取值范围为0到1,两幅图像的差异越小值越大,如果两幅图像的颜色分布相同,那么它们的相似度为1。
相邻两帧图像之间相似度的计算是视频镜头分割的基础。在进行镜头分割时,从视频文件的第一帧开始逐一计算相邻帧的相似度,将其与阈值进行比较,从而检测出镜头边界,将原来的视频分割成若干个镜头。
2.2镜头边界检测
镜头边界检测就是根据镜头之间的切换所带来的特征差异来实现视频分割的,其方法是计算相邻两帧的距离,将其与阈值进行比较,如果距离超过一定阈值则认为是一个新镜头,否则就属于同一个镜头。当视频镜头突变时,相邻两帧间差异较大,容易判断;当发生渐变时由于镜头之间的切换经过了多帧的变化,相邻帧之间变化不明显,因而较难判断。渐变检测则成为镜头检测中的难点,阈值的确定显得尤为重要。
2.2.1 阈值的选择
阈值主要有全局阈值[1]、局部阈值[2]等。全局阈值由于它在整个视频内采用固定的阈值分割视频,当视频帧前后变化较小时,往往在检测渐变镜头时漏检或是误判。而局部阈值设定跟视频帧本身的图像信息相关,能更好地适应不同的视频文件和同一视频文件中的局部特征,在检测镜头渐变时效果明显优于全局阈值。
为了能够同时检测突变和渐变的镜头边界检测,本文将采用双阈值法,同时结合滑动窗口计算自适应局部阈值。自适应阈值通过考察某一局部的特征信息,其取值与视频流的局部分段的特征息息相关,并计算过程中自动调整取值,因此自适应阈值比全局阈值和局部阈值对视频信息的适应能力更好。
2.2.2自适应局部双阈值法
双阂值法是通过设置TH和TL两个阈值(其中TH>TL),突变镜头可以直接用TH检测,而渐变镜头则需要TH和TL共同检测。我们定义帧fi和fi+1的颜色直方图差异即两帧相似度为Di,利用公式(9)计算。两帧的直方图差异大小直接影响值的大小,两者成正比。镜头突变检测时,如果两帧相似度大于TH,即Di>TH,那么我们可以认为突变是从第i帧后发生的,前面镜头的最后一帧为fi,而突变后镜头的第一帧为fi+1。而当Di大于TL小于TH时,那么我们可以认为渐变镜头的第一帧为帧fi+1,随后计算后序相邻帧的帧差Di+1和fi+1帧与其后第k帧(k=i+1,i +2,i +3,…)的直方图差异值,由于没有两个帧完全相同,每两个帧都有或多或少的帧差,导致最后的帧差异值会越来越大,我们将这个差异值称为累计直方图差异SumD,如果往后碰到第fn帧与fn+1两帧的帧差Dn
自适应局部双阈值的计算方法为: 设计一个滑动窗口,滑动窗口的宽度 W 初始化为 1 帧,步长为 1。根据公式(9)逐个计算滑动窗口内相邻两帧间的颜色直方图差异为Di。
然后根据式(10)和式(11) 计算滑动窗口内的相邻帧间的颜色直方图差异的平均值G和标准方差R。
为了检测本文算法的有效性,随机抽取了不同类型的4个视频片段,并分别用本文算法、局部单阈值和全局阈值算法进行检测,得到统计数据如表1和表2所示,反映了使用本文算法检测出的镜头数查全率和查准率均高于局部单阈值和全局阈值算法,尤其比全局阈值法高出很多。其中,实际镜头数为人工目测分析得出的镜头数目。实验结果表明,本文算法在检测不同类型不同长度的视频片段时,其查全率和查准率相对较高,而且具有广泛的适应性。当检测的视频片段较长时,局部单阈值虽能自动计算阈值,具有一定的自适应性,但由于只有一个阈值,在检测渐变镜头时效果不明显,因而漏检和误检情况较明显。当采用全局阈值算法检测较长的视频片段时,其查全率和查准率则明显偏低,效果与本文算法相差较大。
4小结
本文在建立HSV模型颜色直方图的基础上,经过量化来表示视频帧的特征,计算帧间相似度。通过帧间相似度与双阈值的比较,能够同时检测突变和渐变。自适应阈值结合动态滑动窗口能够通过计算机的计算得到,能充分适应局部帧变化,经过实验证明,这种方法在进行镜头分割时取得了很好的效果。
参考文献:
[1] 曹建荣. 一种基于语义的视频场景分割算法[J]. 中国图像图形学报,2006,11(11)
[2]付彦伟,多视点视频内容分析与摘要技术研究, (D),硕士学位论文,南京大学,2011
[3] 陈春雨,姚秋香,乔玉龙.基于帧差法和边缘检测法的视频分割算法[J].济南大学学报(自然科学版),2012,26(1)
基金项目:湖南省教育厅科学研究项目(编号:12C0955)资助