论文部分内容阅读
语者识别(也称作说话人识别)是一种生物认证技术,它根据语音波形中反映说话人静态和动态特征的语音参数自动鉴别说话人身份。基本的说话人识别类型包括了说话人辨认(speaker identification)和说话人确认(speaker verification),前者是测试数据的说话人属于已知的说话人集合中,需要从该集合中找出哪个说话人同测试数据最为相似;而后者则要判断测试数据是否真正地来自给定的某个说话人。根据测试数据的说话人是否在已知的说话人集合内,可以将说话人识别分为开集识别和闭集识别,闭集识别相当于是一个说话人辨认过程,而对于开集识别来说,不仅要找出测试数据同集合中的哪个说话人最相似,还要确认该测试数据的身份是否就是这个说话人,否则是集合外的陌生说话人。在实际系统应用中,一般不知道某个未知语音的身份是否在集合内,因此开集识别的应用更加广泛。在本文中,将开集识别看作是说话人辨认过程和说话人确认过程的结合,并分别就这两个过程中存在的可以提升性能的研究方向进行探讨,包括通过得分规整和合理的闽值训练方案保证说话人确认的准确性,以及在说话人辨认过程中使用基于说话人聚类的快速搜索算法来提高性能等,在此基础上本文实现了一个拥有完善功能的支持开集的说话人识别系统,将理论研究出的处理方案和改进措施应用于实际的系统中,最后通过实验测试其有效性。