面向压缩语音的说话人识别技术的研究

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:chen_chen1111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术与模式识别技术的发展,说话人识别技术已经取得了令人满意的效果。当下,从网络上获取语音已经成为一种主流方法,然而网络中语音数据大多以压缩编码的形式存在,但针对压缩语音说话人识别系统性能仍然存在着许多的不足。实验发现,在训练数据与测试数据存在压缩编码失配的情况下,传统说话人识别系统的性能有一定程度的下降,影响了说话人识别技术的通用性。本文主要研究了在训练数据和测试数据存在压缩编码失配的情况下的说话人识别问题。论文主要以基于I-vector的说话人识别技术为基础,提出了针对压缩语音的以PNCC特征为主系统,以编码激励特征、改进的SCF特征为辅助系统的说话人识别方案,与基于MFCC传统说话人识别系统相比,在保证了基础系统性能的情况下,提升了系统的鲁棒性。针对面向压缩语音的说话人识别技术,本文主要做了以下研究工作:(1)实现了基于Ⅰ-vector技术的基础说话人识别系统。通过评估系统在不同数据环境下的说话人识别性能指标,研究系统参数的配置,进一步完善基于I-vector技术的说话人识别系统。(2)针对G.723.1低速压缩语音编码,从语音短时谱特征、编码比特流特征、SCF特征三个方面,研究其针对编码失配的鲁棒性,并且针对SCF结合基频进行研究。(3)提出了一种以PNCC特征为主系统,结合编码比特流提取语音激励特征、改进的SCF特征作为辅助系统的说话人识别系统,在I-vector融合、得分融合领域均能改善系统性能。对比分析不同融合方法的优缺点,择优选取融合方案。
其他文献
平台公司转型是一个系统工程,不同投融资平台公司的战略定位必须是基于战略环境和自身资源能力,在转型方向和方式上不能简单地一刀切,必须通过系统性的战略分析得出可落地的
机体内环境平衡是组织细胞进行正常生理功能的必要条件。内环境的理化因素通过细胞膜的特种结构功能,使保持彼此相对稳定。
环境经济学理论显示经济手段是实现环境管理目的的有效方式,垃圾收费对城市生活垃圾产生量具有杠杆作用,合理的垃圾收费制度可以有效促进城市居民自觉进行垃圾分类,从而减少
目的 探讨胰腺微循环障碍在急性胰腺炎发病机制中的作用 ,研究中药 WPY的作用机理。方法 以异硫氰酸荧光素标记红细胞 ( FITC- RBC)作为示踪剂 ,采用活体荧光显微镜检术观
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
万喜集团(Vinci Group)创办于1899年,是一家拥有100多年历史的建筑服务企业。2002年、2009年《工程新闻纪录》排名全球承包商第一名,2010年排名第三,2011年和2012年排名第四,同时
报纸
当代文化冲突很大程度上影响了人们的思想以及行为,在新媒体这一时代背景下,大学生思想教育也在很大程度了得到了改变,其亲和力、渗透力与感染力不断增强,但是也出现了一系列
“债转股”作为一种化解银行不良债权的一种措施,风险较小,但实施难度较大。我国实施“债转股”以来,效果不是很好,这既有实践中贯彻的问题,更有法律上的障碍。本文分析了“债转股
并购盛行使商誉估值泡沫愈发严重。以中国上市公司为样本,研究发现:企业社会责任履行能有效抑制商誉泡沫行为;社会责任履行情况越佳,商誉资产越低,超额商誉越少,这一抑制效应
随着我国社会经济的不断发展和进步,大众生活质量不断提升,社会环保生态问题逐渐引起了大众的重视,相关部门对于焦炉烟气脱硫脱硝工艺技术的需求也不断升高.文章主要分析了焦