论文部分内容阅读
文本无关的话者确认是目前说话人识别中的一个重要研究方向,为此,美国国家标准与技术署从1996年开始组织了说话人识别评测,用于衡量当前说话人识别技术的发展水平。他为每个参赛单位提供了统一的数据,测试平台以及评测规则等,并且设立了许多子任务,用于探索和研究不同语音条件下的研究方法。对话电话语音的说话人确认作为NIST SRE的一个子任务,具有重要的研究意义。本文从基本的单话者话者确认技术入手,介绍了单说话人确认的系统框架并且对其中各个部分予以详细的介绍,随后,根据对话语音话者确认与单话者确认上的异同,从两个方面对识别系统进行了深入的工作。针对对话语音说话人确认与单话者确认的不同点,对话语音话者确认需要将语音先切分聚类,该操作是将对话语音话者确认转化为常规单话者确认的关键,因此,本文详细介绍了目前常用的切分聚类方法,以及其中的不足之处,并且给出了将其合适的应用于确认的一些改进方案。针对对话语音话者确认与单话者确认的共同点,单话者确认系统性能的改进措施也会使得对话语音确认系统的性能相应得到改进,本文借用语音质量测量的概念,引入了新的评分准则,对系统的识别性能有较大程度的提高。本文提出了两种适合于后续确认过程的对初步切分聚类语音的再处理方法,一,提出了二次提纯的方法,由于语音的纯净度是影响识别性能的关键因素之一,对原始语音的切分聚类结果不再追求寻找准确的说话人转化点,而是追求话者语音切分的纯度,将纯净度低的语音部分予以抛弃,只保留纯净度高的部分作为确认系统的输入,从而提高确认系统的性能。二,采用基于融合策略的切分方法,将利用不同的方法切分的结果通过对比,找出判定结果相同的部分,利用此部分语音分别训练两个话者的模型,对判定结果不同的部分重新归类,最终得到准确的两个话者的语音。本文利用语音质量测量的概念,提出了GMM-UBM框架下新的基于语音信号质量的系统评分方法,通过利用辅助信息,对每一条测试语音动态的衡量其与话者模型的适配度(质量值),并利用所得到的该值调整系统的评分,使得系统的识别性能有了较大的改进。本文建立了一个性能稳定的对话电话语音的说话人确认系统,大量实验表明,所建立的系统具有良好的效果和鲁棒性。