论文部分内容阅读
说话人识别可以看作是语音识别的一种,它是一种根据说话人的语音来判断说话人身份的技术,在军事、司法、医学等领域都有广泛的应用.由于矢量量化的分类特性,同时又可以对数据进行压缩,因此在说话人识别中有重要的应用.
本文针对LBG算法可能有空胞腔产生及有些码字利用率低的问题,提出了一种改进的矢量量化算法,并将其应用到与文本无关的说话人识别研究,得到了一种新的说话人识别方法.实验表明,这种方法对说话人的识别性能好于基于LBG算法的说话人识别方法.
本文同时采用定义F比和增减特征分量的方法研究了LPCC各维倒谱分量对说话人识别的贡献.使用欧氏测度,在不同条件下建立的三个语音实验库上的实验表明,F比方法得到的结果并不能作为判断参数有效性的准确依据,如F比最大的分量在实际应用中并不一定对说话人识别的贡献最大;相比之下,增减特征分量的方法更为可靠,最有用的说话人信息包含在LPCC分量C1到C14之间,高阶的LPCC分量包含较少的说话人信息.
全文的结构如下:第一章,绪论;第二章,说话人识别;第三章,矢量量化;第四章,基于改进的矢量量化算法的说话人识别方法;第五章,LPCC系数各分量在说话人识别中的重要性.