基于声门信息的说话人确认方法研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:whitewolf1573
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音是人类最自然最重要的交流沟通方式,将语音信号中说话人的信息提取出来,即说话人识别,也称为声纹识别,是目前语音信号处理中的一个重要研究方向。随着智能计算、网络安全需求的迅速发展,可提供生物特征识别的声纹识别技术受到越来越多的关注,正在走向实用化。经过多年的研究,实验室环境下的说话人识别系统已经较为成熟。然而,从实验室走向现实环境仍有一定的问题。问题主要集中在说话人识别的鲁棒性与计算量上。说话人识别系统可以粗略的分为特征提取与模式识别两部分。在经典的文本无关说话人识别技术中主要采用梅尔倒谱系数与UBM-MAP-GMM模型作为特征提取与模式识别。UBM-MAP-GMM模型尽管考虑了测试语音与训练语音失配的问题,但在实际情况下,该模型的运算量与存储需求仍较大,鲁棒性离实用还有一些距离。本文从研究语音信号中不同类型的信息如何混杂、如何提取入手,引入语音高层信号分析,对增强声纹识别鲁棒性、减少计算量进行了研究。本论文的主要研究内容如下:1.探讨了高斯混合模型的物理意义,并介绍了当前的一些对UBM-MAP-GMM模型的改进方法,分析了当训练语音中部分音素类较少时经典模型的处理方式及其不足,进而提出了基于挑选高斯分量的说话人确认系统。实验证明,改进的说话人确认系统无论是训练时间,还是等错误率,均有一定的下降。2.短时特征参数MFCC反映的是说话人的声道特征,基于基频与帧能量的韵律特征反映的是说话人的声门信息,两者从不同的角度刻画了说话人,存在互补以提高系统性能的能力。本文提出了基于二次判决的特征融合方法,实验表明,在该方法下系统性能有一定的提高。3.基于能量的声门信息与短时特征参数MFCC均带有说话人个性信息,然而由于两者描述的是不同层次的个性特征,因此必然存在相互干扰。本文通过从短时特征参数MFCC中剥离声门信息,使得短时特征参数MFCC的区分能力得到提升,从而改善了说话人识别系统的性能。
其他文献
宽带卫星网络作为地面网络的补充和延伸,是未来空天地一体化网络系统的重要组成部分。然而卫星通信的带宽是有限的,如何在有限资源下提高信道利用率并满足用户业务服务质量是多
智能变电站是目前电力行业较热门的研究课题,其最主要的特点是以IEC61850为标准、以以太网通信为主。传统一次设备来自于不同制造商,采用协议种类繁多、接口众多,无法接入智能变电站系统。故采用“传统设备+智能组件”的设计方式将传统一次设备应用于智能变电站。智能组件作为改造后的一次设备的一部分,承担着一次设备实现智能化功能的责任。智能组件应支持基于IEC61850标准的服务,输出基于IEC61850标
VANET是一种自组织、结构开放的车辆间通信网络,是一种特殊的移动自组网MANET(Mobile Ad hoc Networks),可以适应不断变化的网络拓扑结构,为道路车辆之间、车辆与路边固定接
图像分割是把图像分成若干个特定的、具有独特性质的区域,然而由于颜色图像是对三维场景的二维投射,图像在获取的过程中丢失了场景的深度信息,因此单纯依靠颜色信息的图像分割算
视频监控技术在安防领域发挥着极其重要的作用。随着社会的发展,传统的视频监控已经不能满足于市场需求。智能监控作为监控领域最前沿的应用模式之一,具有响应速度快、主动性
网络流特征是指能够体现和表征网络流行为模式的抽象实体,是网络流分类、网络节点识别、流量监控管理等领域的基础。在处理网络拥塞和恶意攻击、了解网络运行状况、流量分布
近年来,随着移动通信和互联网技术的快速发展,急速增长的数据量和多样化的业务需求对通信系统数据传输的可靠性要求也越来越高。因此,需要有效的差错控制机制应对信道非理想
加密域可逆信息隐藏是一种能在加密后的多媒体数据中执行可逆信息隐藏的技术,其兼具加密技术与可逆信息隐藏的优点,同时又有别于传统的加密与可逆信息隐藏相结合的技术,其以优越
随着我国输电网络建设的迅速发展,供电网络的覆盖率占到了国土面积的90%以上,高寒、高海拔的输电线路的安全性巡检存在困难。使用直升机巡检输电线路在解决了上述问题的同时,巡
位置管理(location management,LM)作为无线移动通信网中一项重要内容,主要是及时跟踪移动终端(mobile terminal,MT)的位置,以便传递呼叫到MT,从而保障用户得到良好的服务。  位