多语种识别中的特征对比及系统改进

来源 :天津大学 | 被引量 : 0次 | 上传用户:zemao1988
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文围绕多语种识别,从语音特征和系统模型两方面进行学习研究。论文针对时长不足1s的短语音、易混淆和开集语种识别性能不佳问题,以辨识因子分析(Identify-Vector,I-VECTOR)模型为背景,通过实验对比不同语音特征在上述三个测试任务中的表现。实验表明:瓶颈层特征(Bottleneck Feature,BNF)在上述三个测试任务中超越移位差分倒谱特征(Shifted Delta Cepstral,SDC)、移位差分-音素对数似然比特征(Shifted Delta-Phone Log Likelyhood Ratio,SD-PLLR)、全子带包络特征(Sub-band Envelope Features)取得了最好的识别结果。为提升识别结果,论文对上述BNF-I-VECTOR系统提出一些优化方案。首先在系统前端提出降噪处理和变速均衡数据方法;接着在系统后端部分使用机器学习分类模型如:极端梯度提升(Extreme Gradient Boosting,XGBoost)、随机森林(Random Forest,RF)、支持向量机(Support Vecotr Machine,SVM)取代传统的概率线性判别分析(Probablistic Linear Discriminate Analysis,PLDA)、余弦距离分类(Cosine Distance Scoring,CDS)模型,组合上述优化方案,通过实验结果提出适用于不同测试任务的最佳改进系统。针对短语音语种识别模型进行研究,对比I-VECTOR、基于音素统计信息的音素识别器结合语言(Phone Recognition Followed By Language Model,PRLM)、并行音素识别器结合语言模型(Parallel Phone Recognition followed by Language Model,PPRLM)、时延神经网络模型(Time Delay Neural Network,TDNN)、基于TDNN网络结构的X-VECTOR、双向长短时记忆(Bi-directional Long Short-term Memory Networks,BLSTM)神经网络模型对短语音的识别结果。实验表明:极短语段语种识别中,上述几种模型中I-VECTOR模型识别结果最优。为进一步提升短语音语种识别的结果,对基于TDNN残差模块的Speaker ResNet网络进行学习,并提出融合了降噪、TSM算法、多头注意(multihead-attention)、可学习字典编码层(Learnable Dictionary Encoding,LDE)方法的Speaker ResNet改进系统。该改进系统超越基线Speaker ResNet网络在时长不足3s的短语音上取得较好的识别结果。
其他文献
蓝牙低功耗技术作为物联网的基础构件,成为智能应用不可或缺的无线连接方式,被广泛应用在无线个人局域网中。根据蓝牙技术标准规范,低功耗安全简易配对(Low energy secure simple pairing,简称LESSP)协议是配对设备协商认证密钥的过程,旨在为用户提供安全、隐私、低功耗的无线配对方式。大规模监控的实质是算法替代攻击(Algorithm-substitution attack,
强对流天气作为一种具有极大破坏力的气候类型,对我国经济、农业及民生等方面产生了恶劣的影响。多普勒天气雷达是监测和预警强对流天气的重要工具之一,具有分辨率高、产品丰富等优点。为了提升效率,减少非对流单体部分带来的影响,对传统预报方法进行改进。针对具体对流单体进行分析,帮助气象研究人员实现强对流天气监测和预警。为有效完成对流单体的识别、跟踪和预报工作,本文基于多普勒天气雷达基数据,提出了一种基于雷达反
随着阵列天线的应用和发展,阵列信号处理已经成为现代信号处理领域的重要分支。相控阵雷达具有准确的波束指向能力,通过在每个阵元的输出端接入移相器来控制相控阵的波束方向,具有角度依赖特性,在目标的参数检测估计与成像等领域被广泛应用。频控阵雷达既可以同时改变相位和频率,也可以只改变其发射频率,可以使同一快拍时间内的发射波束不再指向固定的角度,具有角度距离依赖特性和空间波束自动扫描特性,可以实现距离依赖性干
近年来,随着人工智能的发展,各种高新技术不断涌现,室内定位技术也变得越来越成熟,得到了大范围的应用和推广,同时给人们的生活带来了方便,也给社会创造了财富。但是WiFi信号在传播过程中,很容易受到障碍物的干扰,并且信号波动大,从而导致定位的准确度不高。为了克服这些问题,本文基于WiFi2.4G和5G双频段信号,使用SVM算法对NLOS状态进行判别以及胶囊神经网络等方法来减少环境因素的影响,提高定位精
立体显示技术已在多个领域得到了广泛的应用,为人类的日常生活工作带来很多惊喜与便利,但是长时间观看立体影像会引发观看不适,该缺点限制了立体显示技术的发展。立体深度运动是影响视觉舒适度的重要因素之一,对立体深度匀变速运动的认知和识别研究具有重要的理论意义。本文提出一种能够自适应提取脑电特征的PMEMD–2JSD–CSP模型,实现了两类立体深度匀加速运动脑电信号的分类识别。该算法首先利用部分噪声辅助多变
随着移动通信的高速发展,嘈杂环境下的语音交流问题已经变成一个迫切需要解决的问题,如何有效的去除背景噪声对语音通信的影响,日益受到人们的广泛关注。骨导语音技术提供了另外一种抗噪的思路,骨导语音通过人体传导声音振动,最后通过高度灵敏的传感器收集信号。正是由于这种特殊的传导性质,骨导语音不会被空气中的噪声所干扰,能够一定程度的消除噪声影响。但是人体传导和空气传导语音有着不一样的性质,因此骨导语音和气导语
互素谱分析是近年来出现的一种欠采样下利用稀疏样本对信号进行谱分析的方法。该方法可以突破采样定理的限制,以远低于奈奎斯特速率的采样率实现信号的频谱估计。针对海上电磁环境下宽带信号的频谱感知,互素谱分析可以实现覆盖短波、超短波、以及微波频段的全景谱估计,为通信质量评估和信道优选供依据。但是原始互素谱理论仍然存在三个主要问题,使算法性能无法满足海上全景频谱分析的要求,其中包括:(1)互素谱本身结构问题导
机载激光通信系统直接上机进行验证实验所需成本昂贵、耗费大量资源,而依靠软件的纯数字仿真方式又难以准确全面地进行设计结果的验证,具有较大的局限性。本文提出一种半实物仿真的方案进行激光通信系统性能的实验验证。在实验室环境模拟飞行器之间的相对位置变化,并提供必要的激光发射源和接收端作为飞行器模型,以较少的成本花费准确全面验证激光通信系统的多项性能指标。首先,设计转台子系统作为飞行环境模型,以实现空间目标
本文主要探究说话人的舌体大小是如何有助于产生说话人个性的动态特征。相对舌体大小(RTS)已经作为一个衡量中矢状面核磁共振成像(MRI)口腔内舌体大小的指标。我们先前的研究表明,RTS越小,舌体运动就越快。在本项研究中,进一步对RTS在声学特性方面的影响展开了研究,即通过比较舌体的运动速度和共振峰频率的变化率,来分析不同的相对舌体大小所产生的声学特性。本研究所使用的数据是现有的cine-MRI数据集
声音的模式信息和空间方位信息被认为是分别在大脑中的腹侧和背侧通路中进行处理的。尽管这种听觉双通路模型被广泛认可,但两条通路之间的独立性程度仍存在较大争议,并且近年来有研究提出了另外一种广泛的分布式网络模型。为了进一步探究不同频率和方位的声音在大脑中的处理机制,揭示频率和方位影响到的大脑区域,本研究分别选取不同频率和不同方位的声音作为刺激材料,采用组块设计的实验范式,利用功能磁共振成像(functi