论文部分内容阅读
当今社会,随着电子产品像电视、便携式摄相机和手持小配件的不断涌现,大量的多媒体信息也随之涌入社会。每分钟近100小时的视频被上传到YouTube。从这些网上资源中寻找一个感兴趣的视频或者对这些视频归档都是一件相当费力、耗时、枯燥的工作。为了应付以上问题,一些人不得不把他们寻找的视频或者是图像限定在一个小的特定范畴、类别或者是情景中。所以按照视频图像的类别、情景实现它的自动分类吸引了众多研究者。在最近10年,视频图像的自动分类已经成为了非常热门的研究领域,它减少了探索的时间和空间,避免了冗余和错误结果。视频图像分类技术把多媒体内容放到它们相近或者相关的类别里,并为每个视频加以标注,如体育、新闻、音乐、电影等,以方便数字内容的管理、浏览和检索。多媒体内容分类和双向视频检索的主要思想是在信息寻找过程中支持,促进、帮助用户。检索需要的多媒体内容是在特定的类别中进行搜索而不是在所有多媒体中进行搜索。 多媒体内容的表征和理解对于计算机视频的应用像监督、自主导航、基本内容的检索系统或者交通规划等具有重大意义。对于多媒体内容的表征和理解不仅可以在分类方面帮助我们,还可以发现检索内容的范围。本篇论文试图解决和分析这些难题。本研究的主要贡献总结如下: ①提出了一种基于模糊颜色直方图的视频分割与边界检测算法。在所提出的算法中,第一步是通过一种改进的模糊颜色直方图进行视频分割与边界检测。由于HSV颜色空间更符合人类对色彩的感知,所以我们选择在HSV颜色空间下绘制模糊颜色直方图。通过计算不同颜色直方图之间的差值,我们可以进行镜头边界检测。绘制HSV模糊颜色直方图的步骤主要包括:输入数据模糊化、建立模糊规则以及模糊推理。HSV颜色空间的每一个颜色分量都被分割成一系列模糊子集,并分别使用μhi(h)、μsi(s)和μvi(v)表示每一个颜色分量的模糊子集隶属度函数。为了扩展算法的灵活性和适用性,我们对颜色进行模糊分割,并且每一个模糊颜色不是按照颜色名字定义,而是以颜色序号进行定义。实验结果显示本文所提出改进算法可以有效地检测镜头边界,并且具有更高的准确性和有效性。 ②提出了一种自然图像的显著物体检测算法。利用全局对比扩展来实现自然图像的显著物体检测。该算法运用在下一章的视频分割和代表关键帧的选择上。L*a*b颜色空间可以将颜色和亮度分离开,本文在研究中利用了这一点特点。此外,通过对比度拉伸使目标前景更为明显,减少背景细节。利用来自于对比度扩展自然图像的Otsu阈值来二值化图像,利用最大标签连接找出图像的精确位置。最后,运用高斯滤波减少背景细节,使图像的显著区域更明显。实验结果证实了本文所提算法有比较好的性能。 ③提出了一种无线胶囊视频中出血图像的分类算法。图像的颜色、纹理和运动特征是此类视频序列的显著特征,引入并利用了图像的HSV颜色直方图。针对纹理描述,利用新的Weber局部描述子。以平方绝对差(MAD)为价值函数,菱形搜索法(DS)为搜索方法来进行运动特征提取。利用自组织映射作为分类器,取得了很好的结果,并与支持向量机对比,以验证其正确性和有效性。 本文研究的主要目的与方法是基于颜色变化、纹理特征、运动特征,视频剪辑和电影语法等把视频序列分割成不同的镜头来实现视频分类。实验的结果验证了本文所提出的工作框架可以有效地实现多媒体内容的分类。