基于JFA的汉语耳语音说话人识别

来源 :苏州大学 | 被引量 : 0次 | 上传用户:jiangzhaomaomao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
耳语音说话人识别在公共场合下的通讯、安全场所的身份鉴定、罪犯识别、电话网络查询与电话银行等领域都有着一定的实用价值。它是一个较新的研究课题,有许多问题尚待解决。由于耳语发音方式的特殊性加上耳语通话常常在手机方式下进行,耳语音说话人识别受说话人发音状态、健康状况、心理因素及信道环境因素的影响变得更为突出。因此,用正常音建立的说话人识别系统对耳语音说话人识别基本不适用,识别性能将大为下降。目前已有的自适应补偿方法都将说话人变化和信道环境变化这两种因素混在一起,不加区分,这样的处理方式必然会影响耳语音说话人识别的识别效果。为此,有必要针对耳语音的特点,建立合适的识别模型来实现文本无关的耳语音说话人识别。本文提出采用联合因子分析(JFA)的方法来解决耳语发音时受多种因素影响说话人语音特征变异大的问题,该方法针对耳语音的特点引入了两类变化因子:说话人自身变化因子和通话信道环境变化因子。鉴于联合因子分析的难点,本文提出了一种适用于耳语音说话人识别的简化的联合因子分析方法,其最主要的特点是分开估计说话人空间和信道空间,因此在算法的复杂度和语音数据的需求量上都有很大的下降,从而大大降低了运算量和运算时间。本文建立了一种基于简化的JFA方法的识别模型,并且给出了相应的算法,在此基础上实现了耳语发音方式下与文本无关的说话人辨认。对本文提出的简化的JFA识别模型在8种不同的信道环境情况下分别进行测试,实验证明,该模型在信道失配的情况下也能有效地辨认耳语音说话人,并与已有的采用MAP、特征映射(Feature Mapping)和说话人模型合成(SMS)方法的GMM模型进行比较,识别正确率有了明显的提高。此外,还研究了说话人因子数和信道因子数对该识别模型性能的影响,实验发现,适当地增加说话人因子数和信道因子数有助于提高识别的正确率,但是两者均存在着一定的饱和问题,即继续增加说话人因子数和信道因子数对识别模型的性能几乎没有任何提高。
其他文献
多输入多输出(MIMO)技术可以在不增加系统带宽的前提下显著提高系统的传输速率和链路可靠性。然而,受尺寸、费用及硬件的限制,很多无线设备无法安装多根天线。近年来,中继通信(也
超介质是一种人工电磁材料,具有与自然物质不同的电磁特性。设计实现任意介电常数、磁导率和折射率的超介质使得超介质在微波领域的应用提供了可能,特别是超介质加载到天线上
随着视频处理技术、智能识别技术和宽带网络技术的不断发展,智能化、网络化视频监控系统的应用领域也越来越广泛,例如:银行、车站、商场、小区、大型仓库、家庭、远程教学、交
网络控制系统给人们的日常生活带来了巨大的便捷和高效的同时,也给控制领域带来了前所未有的机遇和挑战。控制技术与网络信息的结合,使得控制系统已经在一定的范围内突破了在
腭裂是较为常见的先天畸形,新生儿发生比例约为1:1000。随着社会生活水平的提高,医疗健康成为人们生活中最为重视的服务之一,所以研究腭裂患儿的发音,即腭裂语音,从而找到改善
近年来,随着无线通信技术的快速发展和交通领域信息化的迫切需求,催生了人们探索无线通信在智能交通方面的应用研究——车载自组织网络(Vehicular Ad Hoc Networks, VANET)。
随着数字电视技术的发展,数字电视(DTV)广播技术也变得越来越完善,在城市中,人们获得定位信息的来源已不局限于以往的定位系统和设施,已开始考虑基于DTV信号进行定位。而在城市中
2006年8月30日,国家标准化管理委员会发布了《数字电视地面广播传输系统帧结构、信道编码和调制》标准,标准号为GB20600-2006。本标准为国家强制性标准,批准日期为2006年8月18日
三维重建是计算机视觉研究的一个重要分支,在日常生活、医疗领域、军事测量等行业具有广泛应用价值。三维重建方法可分为主动式方法和被动式方法。主动式方法需要测量设备主
随着无线移动通信技术的飞速发展,各种新兴的无线接入技术层出不穷。它们具有不同的实现技术、不同的控制方式、不同的覆盖范围和不同的数据传输速率,它们既相互补充又相互竞