论文部分内容阅读
本文主要讲述基于全背景-高斯混合模型(UBM-GMM)的说话人确认系统。首先在实现基本系统的基础上,我们通过录制新的语音库,增加了基于短时能量和短时过零率的双门限端点检测等措施,使系统的识别精度达到了一个比较高的水准。然后又针对系统运行时间过长效率较低的现象,提出了只抽取语音中最能有效反应说话人个性特征的部分进行特征参数的提取,以降低系统数据量。然后通过实验进行验证,通过结果可以看出,经过如此改进后系统的精度依然能够保持原来的水准,而系统的运行时间却降至约为原来的三分之一左右,大大提高了系统的效率,也基本达到了我们的预期目的。论文首先对说话人识别的背景、研究意义及近些年来的发展现状做了一个详细的论述,并指出了当前仍存在的难点问题,然后对本文要做的工作做一个概要的介绍。然后,按照UBM-GMM说话人确认系统的流程依次对系统的各个部分进行理论和具体实现的介绍。在本文中我们采用DET曲线来评价系统的性能,该曲线的横、竖坐标分别代表错误拒绝率和错误接受率,横竖坐标相同的点的坐标值便是系统的平均错误识别率。我们在原系统的基础上增加了双门限端点检测的方法,并针对原语音库信噪比较低的情况重新录制了质量比较高的语音库,从而使得系统的精度达到了一个比较高的水平。但在实验的过程中我们也感受到,由于数据量比较大,导致系统的运行时间比较长,这在实际应用中特别是在实时的情况下显然是不够的,针对这种情况我们进一步提出了降低系统运行时间,提高系统效率的目标。我们首先对被测试语句进行分帧打分,观察总结出语音中得分比较高的部分,并对该部分进行短时能量和短时过零率的分析,然后设定出对该部分进行抽取的短时能量和过零率的门限值。经过只抽取最能有效反映说话人个性特征信息的语音段进行特征提取的改进之后,我们首先对系统前后的识别率进行对比,发现系统的识别率依然能保持原有的较高水准。然后进行系统运行时间的对比,通过实验结果我们可以看出,改进后的系统运行时间有较大幅的下降,只为原来的三分之一多一点,从而说明了本文所做的改进基本达到了预期的效果。最后本文讲述了基于普适计算的E-Learning系统,并对说话人确认系统在其中的应用做了概要的介绍。