基于深度学习的语音分离和识别技术研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:jay2722927
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能飞速发展,大量智能设备出现在人们身边,语音作为人机交互的重要方式之一,人们迫切地需要将语音信号处理相关技术应用到智能设备中。目前,自动语音识别系统的识别率虽然已经超过人类,但这仅限于在安静的环境中,并不能在环境背景嘈杂的现实环境中起到相应的作用。因此,能去除背景噪音和其他说话人干扰的语音分离技术成为是研究的热点。强调从任务的输入端到输出端都由一个算法完成的端对端语音识别技术将更有应用前景。目前的语音分离和识别算法是基于传统声学特征实现的,没有过多考虑特征提取过程中造成信号的信息损失和引入虚假信息对系统性能的影响。针对这个问题,本文借助卷积不变性可以克服语音信号多样性的特性,以语音信号为研究对象,探究以语音信号采样点作为输入的深层一维卷积网络对声学特征提取、语音分离和语音识别这三个方面的影响。1、针对传统声学特征提取过程中,傅里叶变换、离散余弦变换等提取方法造成的信号高频信息和相关性信息丢失的问题,本文设计了基于深层一维卷积网络的声学特征提取模型,克服了传统声学特征提取时造成信息损失和模块繁琐等问题,可以提取出语音信号更深层次的声学特征,并给出实验验证;2、针对目前语音分离系统以传统声学特征作为输入,模型训练不能影响特征提取过程等问题,本文设计了一维卷积网络和长短时记忆网络结合的语音分离系统,将声学特征提取和模型训练结合在一起,采用多类回归的方法从混合语音波形中恢复目标说话人的语音,并在双说话人数据集上进行实验;3、针对目前端对端语音识别系统以传统声学特征作为输入,以及长短时记忆网络参数量大、运算速度慢等问题,本文设计了基于因果扩张卷积的端对端语音识别模型。使用具有时序性的因果卷积和相同卷积层数下可以提供更大感受野的扩张卷积相结合代替长短时记忆网络,搭建端对端语音识别系统,并在中文语音数据集上进行实验。本文研究发现,深层一维卷积网络可以提取语音信号更本质的特征,提升了语音分离系统和语音识别系统的性能。因果扩张卷积在语音识别上的成功应用,有望于取代长短时记忆网络成为语音信号领域最优秀的模型,这也为语音信号处理提供了新思路。
其他文献
<正>本文力图分析中国电影发展中儒家精神所扮演的角色。在中国文化与社会发展的整个历史中,儒家精神无疑具有十分重要的意义。然而,这些精神价值是如何在电影中呈现的呢?可
<正>单纯性肥胖病主要是指由于机体内热量的摄入大于消耗,导致脂肪在人体内积聚过多,使得体重超出正常范围的一种病症[1],作为一种可导致心脑血管疾病、糖尿病、骨关节疾病以
考虑高速公路路基承受柔性荷载的特点 ,采用弹性力学中Mindlin解与Boussinesq解联合求解柔性荷载下粉喷桩复合地基中及复合地基下卧层土中应力及沉降。计算表明由于桩的作用
<正> 交通部公路科学研究所于1989年从澳大利亚引进了一套大型道路试验系统——加速加载设备(简称 ALF)。ALF 有两个特点,一是能真实地模拟实际的交通荷载,尤其是车载在道路
国内数字媒体艺术教育,在移动互联网语境下暴露出一些新问题。对移动互联网思维进行分析和总结,并为数字媒体艺术教育提供参考和借鉴,有利于数字媒体艺术的发展。移动互联网
<正>小儿厌食症是指小儿较长时期见食不贪,食欲不振,甚至厌恶进食的病症。本病是儿科常见病之一,属于祖国医学"恶食""不嗜食""不思食"等范畴。由于厌食过久,进一步易发展为"
应用开关式和功率跟随式控制策略对混合动力公共汽车和原车的最高车速、原地起步加速特性等动力性指标和基于ECE15的百公里油耗进行了仿真和分析。得到如下结论 :两种控制策
<正>今天下午,我参加了学校举行的"诗配画"比赛。比赛开始了,一位胖胖的男老师给我们每人发了一张作业纸,要求我们完成"诗配画"——《画鸡》。我暗暗地想:嘿!这对我来说简直
期刊
内容O2O电子贸易逐步取代B2C、C2C贸易模式成为网络商务的主流形式,但现有O2O电子贸易下的消费者感知体验价值偏低。本文分析了消费者感知体验价值组成维度,设置问卷采用Liket7
目的观察并比较10%乙二胺四乙酸二钠(EDTA)和5%硝酸脱钙处理大鼠颞骨的效果。方法 SD大鼠10只,随机分为EDTA组和硝酸组,取出大鼠颞骨后分别置于10%EDTA、5%硝酸脱钙液中进行