论文部分内容阅读
随着多媒体、互联网、大容量存储等技术的不断发展,数字化视频开始进入人们的日常生活。为发挥海量视频数据的资源共享优势,支持视频非线性编辑、语义理解和高效检索,完善和发展视频内容分析技术迫在眉睫。经过早期基于图像信息的研究,越来越多的研究者发现由于机器视觉和模式识别的发展限制,自动提取视频的语义是比较困难的。音频作为视频文档中包含的另外一种类型时间媒体,是一种可为视觉信息提供重要补充的信息源。音频流所包含的语义信息往往比图像流丰富,提取语义信息也更加直观方便。因此,基于音频的视频内容分析技术,近年来已逐渐成为基于内容多媒体检索和过滤研究的热点。本文提出了一种应用于视频内容分析的话者辨识系统。相对于通用的话者辨识系统,论文研究考虑以下几点:首先,从视频数据中提取的音频流中不仅包含静音和语音,还包括音乐和背景音;其次,视频内容中的话者数目无法预先得知,系统也无法直接获得用来训练话者模型的纯净的话者数据;最后,视频内容中大量存在的各种噪声将加剧训练数据和测试数据的失配,严重影响话者辨识系统的性能。基于上述实际系统中的考虑,本文提出的应用于视频内容分析的话者辨识系统架构主要包括:基于规则和支持向量机的音频分类与分割;基于谱聚类的话者聚类和基于高斯混合模型的话者辨识;基于谱减法的语音增强。围绕应用于视频内容分析的话者辨识系统,本文的主要工作包括:(1)本文对话者辨识的原理和算法进行了深入的研究和分析,实现了基于高斯混合模型的话者辨识,验证了该方法在应用于视频内容分析的话者辨识系统中的有效性。(2)SVM是建立在VC维,泛化性能和推广能力之上的一种理论,对SVM中的相关概念(支持向量、核函数等)进行了介绍。根据本文中实际系统的考虑,提出并实现了基于三个支持向量机的分类器架构,验证了该架构的可用性。(3)本文对语音增强的原理和算法进行了分析和比较,实现了谱减法在应用于视频内容分析的话者辨识系统中的应用,验证了方法的可用性。实验数据来源于新闻视频、访谈视频和电影视频。实验结论证明了本文提出系统的有效性。