基于会议语料的Speaker Diarization系统研究

来源 :北京师范大学 | 被引量 : 0次 | 上传用户:wangfc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Speaker diarization的作用在于:它作为语音识别技术的前端,在毫无先验概率的情况下区分语料中不同说话人,并用说话人说话的起止时间信息标定语料。这为语音识别工作提供了使用便捷、内容丰富的语料文本,使得音频语料的索引、搜索以及阅读更加便利。美国国家标准与技术局(NIST,National Institute of Standards and Technology)从2003年开始组织全球高校及科研院所从事speaker diarization的研究和测评工作,并取得了卓有成效的成绩。尽管国内在说话人识别方面的工作已经开展地比较成熟,但是在speakerdiarization方面尚未有完善的系统。   针对这种情况,本论文研究了说话人识别、说话人分割以及speaker diarization的相关算法和技术,以NSIT的Rich Transcription评估为基础实现了一整套相对完善的speakerdiarization系统,其中包括:语料去噪,语音活动检测(Speech Activity Detection),说话人模型训练,说话人语料的识别和说话人聚类,语料的标定和结果检测,并在语音活动检测、聚类初始化、初始化语料的净化等环节中提出了切实可行的算法。通过利用AMI(Augmented Multi-party Interaction)英语会议语料测试,本系统性能可达国际先进水平,平均DER(Diarization Error Ratio)可达23.3%。   此外,针对语音特征的选取,本文验证了PNCC(Power Normalized Cepstral Coefficient)在speaker diarization系统中的有效性,并对PNCC和MFCC从各个角度进行了比较和分析。尽管PNCC在噪声语音识别条件下的识别率优于MFCC,但实验表明,PNCC的DER比MFCC平均高十个百分点。
其他文献
随着工业以太网技术的日益普及,以太网通信距离长,带宽高,将以太网技术应用于跟踪控制系统,这已经成为光电跟踪控制系统发展趋势之一。由于目前跟踪控制系统的小型化和模块化
学位
以粤西天然香根草为材料,利用Li6400光合仪分别对不同月份香根草植株的光合生理生态特性日动态和不同CO2浓度下光有效辐射倍增的光合生理特性进行了测定,研究了香根草的光合生
随着用户规模的扩大和业务种类的增多,大量新兴的业务,如VoIP、IPTV等,都以IP网络作为承载网络,同时,运营商希望在现有的接入网基础上架设下一代网络,这就要求网络设备不仅能
双站合成孔径雷达(Bistatic Synthetic Aperture Radar)是指发射和接收设备安置在不同平台上的合成孔径雷达。由于收发分置,双站SAR相对于单站SAP,具有获取信息丰富、安全性
学位
在新疆的荒漠极端环境中生活着多种昆虫,渡过新疆严寒的冬天而不被冻死。它们通过生理学、生物化学、行为学等方面的改变来提高自身的抗冻性能。与抗冻性能直接相关的是昆虫机
本文在已有文献基础上深入研究消费者集体认同对消费文化定位广告偏好的影响。通过实验发现,消费者群体认同度影响其对消费文化定位广告的偏好,且群体独特性在这个过程中起调
近年来,随着无线通信系统的飞速发展,无线通信技术在民用领域和军用领域的应用越来越广泛。微波功率放大器作为无线通信系统的重要组成部分,其性能对整个通信系统有直接的影响,尤
运动目标跟踪是计算机视觉和机器人领域一个最为基本的研究课题,它在众多应用领域起着至关重要的作用,如:智能监控,智能交通,人机交互,运动视频分析,生物医疗等。   目标跟踪的主
学位
合成孔径雷达(Synthetic Aperture Radar,SAR)电子对抗是现代战争的重要作战手段之一,多通道SAR因为具有较高的空间自由度在电子反干扰方面具有较大的优势。该文围绕多通道SA
学位
激光实时连续测速系统是提高短跑运动效率的有效方法,是及时量化训练过程数据的有效手段,是减少训练过程中主观性与不可预见性发生几率的有效途径。系统通过对测量数据的实时处