基于深度学习的离线语音识别系统的开发

来源 :大连理工大学 | 被引量 : 3次 | 上传用户:liu_shuangde
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音和文字在人类交流与沟通中起着不可替代的作用,语音是人类交流最自然的交互方式,文字在存储、阅读时则更为便利,将语音转换成文字一直是语音识别领域的研究热点。汉语是全球使用人数最多的语言,中文语音识别时不仅需要考虑大量的同义字和同音字,还需要考虑声韵母以及音调带来的发音不准等问题,识别复杂,难度大。本研究基于深度学习方法进行语音识别系统的研究,从而建立可靠准确的语音到文字转换模型,主要包括以下三方面的工作:(1)对中文语音数据预处理以及特征提取方法进行分析,发现使用汉明窗作为信号处理的窗函数可以为后续特征提取提供更高质量的频谱;对比语谱图特征、滤波器组特征以及MFCC特征的细节信息与实际建模结果,发现使用语谱图特征作为声学模型的输入,识别精度更高。(2)针对传统语音识别系统训练复杂、数据标注费时费力以及准确率不高等问题,将深度学习与CTC算法结合搭建声学模型。使用卷积神经网络搭建模型,有效的加快了训练速度,减少了空间参数。使用CTC算法进行似然度优化,避免了数据需要标注的问题,降低了模型训练的复杂程度。通过使用批归一化,残差模块等优化手段,提高了声学模型的精度;利用模型微调进一步的提高了单人模型的准确率。(3)针对端到端语音识别系统对数据量要求过高的问题,本文采用非完全端到端框架,声学模型实现语音到拼音的转换,语言模型实现拼音到文字的转换,牺牲一小部分解码速度的基础上提高了准确率。使用神经网络语言模型替代主流统计语言模型,解决了空间参数过大,数据过于稀疏的问题,提高了拼音到汉字转换的准确率。本研究基于开源中文语音数据集搭建离线语音识别系统,侧重于声学模型的搭建与预测,将卷积神经网络与CTC算法有效结合,使用批归一化,残差连接模块等优化策略,有效的降低了语音到拼音转换的错误率,测试集错误率在15%左右。使用神经网络语言模型,作为拼音到文字的转换模型,大大降低了精度损失,使得最终的识别准确率在84%左右。本研究最终形成了离线语音识别系统软件平台,采用服务端-客户端的交互方式,方便语音数据集的收集与底层模型的更新,极大的提高了用户的使用体验。
其他文献
结合伊犁-库车输电线路工程,对冰川作用区独特的地貌类型进行分类,研究不同地貌类型的工程地质性质;针对冰川作用区不同类型的工程地质条件,就输电线路塔基选址原则和相应的
政党关系是现代基本政治关系之一,政党关系关乎着整个政治系统的稳定与发展,因此需要正确认识和处理政党间的关系。不同于西方竞争性的政党关系,中国共产党和民主党派结成了
果品质量安全标准,对果树病虫害防治提出了更高要求。在国家出台的果品质量安全标准中,对优质果品中农药残留的限定标准更加明确,农药的投放和精准施药已成为果品安全生产的
支气管哮喘(简称哮喘)是由多种细胞和细胞组分参与的气道慢性炎症性疾病,发病机制未完全明确。根据诱导痰炎症细胞的类型分为嗜酸粒细胞哮喘(eosinophilic asthma,EA)、中性粒细
新陈代谢是事物发展的客观规律,随着社会科学技术的向前发展,社会结构和生活方式也发生了巨大的变革。城市是历史的产物,是物质文明和精神文明荟萃所在,社会的变革必然引起
目的:探讨0.375%罗哌卡因不同注射速度对超声引导后入路腰方肌阻滞术后镇痛效果的影响。方法:拟在择期全麻下行腹腔镜Dixon直肠癌根治术患者60例,性别不限,年龄3570岁,BMI1830 kg/m2,ASA分级Ⅰ或Ⅱ级,采用随机数字表法分成两组(n=30):高速组(H组)和低速组(L组)。全麻诱导前行超声引导下双侧后入路腰方肌阻滞,H组和L组每侧分别以注射速度40ml/min、20ml/min
目的:对进口甘草的适用标准提出建议。方法:对各国的甘草标准进行查阅和汇总,并进行比较和分析。结果:各国标准中甘草的原植物基本一致。作为一种药食两用的产品,其在食品领
<正>2014年3月份习近平总书记在中央财经领导小组第五次会议上,从全局和战略的高度,针对我国水安全问题发表了重要讲话,提出了"节水优先、空间均衡、系统治理、两手发力"的重
目的分析改良床旁肺部超声(BLUE)评估方案在重症患者肺实变和肺不张诊断中的应用价值。方法取重症监护室患者43例,患者连续48 h机械通气,对患者取胸部CT、BLUE及改良BLUE评估
为了提高生化出水的反渗透性能,本文提出采用Ca(OH)2絮凝沉淀预处理生化出水,再经O3氧化后,用于反渗透膜的深度处理工艺.研究表明,Ca(OH)2絮凝沉淀可以有效地去除垃圾渗滤液生化