【摘 要】
:
近年来,语音识别技术逐步从科研机构走向市场,并广泛应用于智能控制、家庭服务、儿童教育等领域,这主要得益于深度学习的快速发展,让使用大数据集在实际应用中训练足够鲁棒的语音识别器成为可能。另外,语音信号处理技术在语音识别系统的应用也一定程度上解决了噪声环境下识别率下降的问题。 语音识别技术的主要目的是实现人与机器比较自然的语音交互,而不局限于文本的形式。在识别系统中,一般是使用理想环境下采集的纯净语
论文部分内容阅读
近年来,语音识别技术逐步从科研机构走向市场,并广泛应用于智能控制、家庭服务、儿童教育等领域,这主要得益于深度学习的快速发展,让使用大数据集在实际应用中训练足够鲁棒的语音识别器成为可能。另外,语音信号处理技术在语音识别系统的应用也一定程度上解决了噪声环境下识别率下降的问题。
语音识别技术的主要目的是实现人与机器比较自然的语音交互,而不局限于文本的形式。在识别系统中,一般是使用理想环境下采集的纯净语音来训练模型,然后应用于现实生活场景中,但是在实际应用时,两者之间的不匹配严重影响了语音识别系统的性能。因此,如何提高噪声环境下语音识别的稳健性对现阶段研究人员来说是一个挑战,对此,本文研究了麦克风阵列信号处理技术与深度学习模型训练技术用以提升噪声环境下语音识别系统的稳健性。本论文的主要研究工作和成果概述如下:
1.研究了一种基于语音时频域稀疏性原理的改进最小方差无畸变响应波束形成与改进维纳滤波相结合的方法。首先使用基于复高斯混合模型的时频掩蔽方法充分利用麦克风阵列语音信号的空间信息进行波束形成,增强期望声源方向的语音信号并抑制环境噪声所引起的干扰;然后使用改进的维纳滤波器去除残留噪声进一步提高语音音质,最大程度保留语音信息。实验结果表明,该方法可以实现较好的噪声抑制效果,对噪声环境下的语音识别系统具有良好的稳健性。
2.研究了噪声环境下语音识别率降低以及传统波束形成算法难以解决的空间噪声问题,本文基于双微阵列结构提出了一种综合了最小方差无畸变响应波束形成与对角加载的麦克风阵列语音波束形成方法,并利用递归矩阵求逆减少计算复杂度,然后通过后置调制域谱减法对语音做进一步处理,获得了良好的降噪效果,在采用卷积神经网络进行训练的语音识别系统模型中取得了较好的识别效果。
其他文献
现有路径规划算法大多基于路网,在用于求解数字高程模型(Digital Elevation Model,DEM)下的路径规划时,因数据量大,效率低下。 针对上述问题,本文基于真实地形数字高程模型,在研究现有启发式寻路算法的基础上,给出了相应的解决思路与方法,具体工作如下: (1)给出一种基于改进遗传与蚁群算法相结合的DEM路径规划算法。针对遗传算法和蚁群算法在 DEM 数据下进行路径规划时的效率
近年来无线传感器网络开始广泛应用于各类生产生活当中。通过安放在监控区域内的传感器节点,可以对周围环境中的物理信息进行感知并收集其相关数据,这些数据经过分析之后,能够有效地检测出该区域内发生的各类异常事件。在现有的无线传感器网络异常检测方法中,一般需要已知异常数据的统计模型或者其他相关参数,但在实际应用中这类信息往往不容易获得。此外,随着监控区域的不断扩大,需要部署的节点数量也相应增加,采集到的数据
Hash函数作为信息安全领域中一个重要的研究分支,被广泛用于数字签名方案、数据完整性检测以及区块链等方面。自2012年Keccak算法被选为美国新一代Hash算法标准SHA-3以来,其安全性一直备受关注。本文基于Keccak算法核心部件的性质研究,利用代数特性对Keccak算法进行了线性化分析,并给出了新的区分攻击方法,主要成果如下: 1.给出了Keccak-f的5个逆变换,并探究了核心部件的特
近几年以小型无人机为代表的低空飞行器发展迅猛,由于廉价、易操控、不易被探测的特性,安全性能差,对人们的生命构成了威胁,因此无人机的检测与识别问题成了亟待解决的问题。基于无人机“低小慢”的特点,以及雷达具有全天候、全方位工作等探测优势,用雷达检测与识别小型无人机无疑是一个很好地选择,可以实现低成本高精度的无人机检测与识别。研究雷达检测与识别无人机时特征提取方法变得尤为重要,特征的优良直接影响检测与识
目的:评价~(18)F-脱氧葡萄糖正电子发射体层摄影术(~(18)F-FDG PET-CT)在预测肝癌肝移植术后肿瘤复发及判断预后中的临床应用价值。方法:回顾性分析我院100例肝癌肝移植受者术前PET-CT显像~(18)F-FDG摄取高低与肝移植术后无瘤生存率及肿瘤复发的关系。结果:65例(65%)肝癌肝移植受者术前PET-CT阳性(~(18)F-FDG摄取明显增高),35例(35%)呈阴性(~(
近年来,蜂窝车联网(Cellular-Vehicle to Everything, C-V2X)使得车辆与周围环境以及云端互联,达到降低事故率与优化交通效率目的,如何有效地协调干扰、分配资源、选择最佳通信模式成为提升蜂窝车联网性能的关键。本文以蜂窝车联网作为研究对象,主要研究了如何对该网络进行干扰协调管理,并采用协作通信策略降低网络中的能量消耗以及收到信息的错误概率。本文对蜂窝车联网的研究主要工作
近年来,随着人工智能及其细分领域的不断发展,人们对摘要器、信息抽取系统等文本生成器产出结果的自动评价研究产生了极大的兴趣。与此同时随着科技不断发展,高校逐步开始采用计算机来进行辅助教学,借助计算机来缓解由于师生比例不足带来的教学压力,如英语教师对学生作文的批改压力。在这样的背景下人们开始研发英语短文的自动批改系统,从单词语法的准确性、主题的偏离度、句法的复杂性等方面来对文本质量进行分析。语篇连贯质
本文主要研究了基于短文本深度学习的目标属性情感分析技术,包括目标属性抽取算法和目标属性情感分类算法。在目标属性情感分析领域,当前的深度学习模型仍然存在一些问题,比如目标属性抽取模型不能充分考虑上下文词语的语义关联和预测标签之间的约束关系;目标属性情感分类模型对复杂文本特征表达能力不足以及无法充分利用文本中不同目标属性的情感关联信息等问题。本文针对上述问题,从模型架构等方面对深度学习方法在目标属性情
精密单点定位(PrecisePoint Positioning, PPP)是指单台接收机利用精密的卫星轨道和钟差和现有精确函数模型或附加参数估计等方式消除与定位相关的误差项,实现高精度的绝对定位。PPP同时具备单点定位不依赖基准站即可实现单机定位和相对定位精度高的优点。实时精密单点定位(Real-TimePrecise Point Positioning,RT-PPP)和PPP技术的区别在于精密卫
自由空间光(Free-space Optical,FSO)通信具有高速率、免许可操作、保密性高、低功耗、易于部署等优势,因此成为高速无线通信的最佳选择方案之一。但是FSO通信易受大气散射、吸收和湍流的影响导致激光信号被严重衰减;尤其在超长距离的 FSO 通信(如星地通信)中还存在高时延和指向误差等问题,从而导致通信性能极不稳定,甚至发生通信中断。目前常用自动重传和前向纠错技术来解决 FSO 在星地