论文部分内容阅读
人类大脑能够在复杂环境下利用其自身特有的融合机能帮助人们准确识别周边事物。在信息产业蓬勃发展的今天,说话人识别技术在模式识别领域不断被提及,因其在某些条件下能够很好地模仿人类机能,甚至赶超人类。而智能会议环境中的说话人识别研究是目前人机交互的又一重点课题,如何借鉴人脑的融合机能,利用多模态融合技术,将对应说话人的音频信息和视频信息进行进行有效融合,从而达到鲁棒准确的识别效果,已成为智能信息处理的一个热点研究。在充分探讨和总结音频说话人识别、视频特征提取、多模态信息融合及多说话人识别关键技术基本理论的基础上,并取AMI语料库中的视听会议材料进行仿真实验,提出了音视频特征融合的多说话人识别算法,该研究的主要内容包括三个部分,具体如下:首先,提出改进的说话人聚类初始化和GMM的多说话人识别算法。它针对多说话人聚类线性初始化方法所得初始话者类纯度不高的问题,提出了一种改进的聚类初始化方法,该方法引入BIC对由线性初始化产生的初始类进行检测分割,有效提升了说话人初始类纯度;最后将其应用到GMM多说话人识别系统。其次,引入视频信号的运动强度特征,提出了基于MFCC和运动强度聚类初始化的多说话人识别算法。它通过运用每一时间帧视频信号的运动强度特征对聚类初始化阶段的初始话者类进行选择,充分利用了音频视频信号的相关性,进一步提高性说话人初始类纯度,此时并未涉及真正意义上音视频多模态融合,为下阶段研究奠定基础。最后,提出了音视频特征融合的多说话人识别算法。它结合说话人语音产生和视频动作之间的时空相关性及互补性,利用麦克风中提取的音频特征和视频信号中提取的运动强度特征,分别对其建立音频流模型和视频流模型,并在说话人聚类分割阶段采用公式化方法将两者进行模型级融合得到对应说话人训练模型,最后应用到GMM多说话人识别系统。仿真结果表明,上述音视频特征融合识别算法是可行的。多说话人识别中,聚类分割是关键,而初始类的选择极大地影响识别的整体正确率,实验证明对说话人聚类初始化的研究中所提的两种新方法有效提高了说话人初始类纯度,在一定程度上有效地降低系统错误识别率。同时,音视频模型级特征融合的多说话人识别算法引入视频特征并应用于音频模型中较之常用的单音频说话人识别有很大改进且更具鲁棒性,尤其在动态会议、语音重叠等复杂情况下其识别效果更为明显,进一步证明了音视频特征融合的多说话人识别的有效性。