论文部分内容阅读
Speaker diarization的作用在于:它作为语音识别技术的前端,在毫无先验概率的情况下区分语料中不同说话人,并用说话人说话的起止时间信息标定语料。这为语音识别工作提供了使用便捷、内容丰富的语料文本,使得音频语料的索引、搜索以及阅读更加便利。美国国家标准与技术局(NIST,National Institute of Standards and Technology)从2003年开始组织全球高校及科研院所从事speaker diarization的研究和测评工作,并取得了卓有成效的成绩。尽管国内在说话人识别方面的工作已经开展地比较成熟,但是在speakerdiarization方面尚未有完善的系统。
针对这种情况,本论文研究了说话人识别、说话人分割以及speaker diarization的相关算法和技术,以NSIT的Rich Transcription评估为基础实现了一整套相对完善的speakerdiarization系统,其中包括:语料去噪,语音活动检测(Speech Activity Detection),说话人模型训练,说话人语料的识别和说话人聚类,语料的标定和结果检测,并在语音活动检测、聚类初始化、初始化语料的净化等环节中提出了切实可行的算法。通过利用AMI(Augmented Multi-party Interaction)英语会议语料测试,本系统性能可达国际先进水平,平均DER(Diarization Error Ratio)可达23.3%。
此外,针对语音特征的选取,本文验证了PNCC(Power Normalized Cepstral Coefficient)在speaker diarization系统中的有效性,并对PNCC和MFCC从各个角度进行了比较和分析。尽管PNCC在噪声语音识别条件下的识别率优于MFCC,但实验表明,PNCC的DER比MFCC平均高十个百分点。