基于深度神经网络的印尼语语音识别

来源 :杨若琳 | 被引量 : 0次 | 上传用户:fanfan19860303
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于深度神经网络并利用大规模数据集训练的语音识别系统已具有良好的性能。印尼语是一种使用人口数以亿计的语言,由于研究起步较晚,还存在缺乏大规模语音数据等问题,印尼语语音识别研究相对滞后。文本针对印尼语语音特征及其低资源特性,采用深度神经网络模型并结合多任务学习、迁移学习,探索提高语音识别模型性能的方法。论文的主要工作包括:(1)完成印尼语文本正则化;根据印尼语的语音特点,并结合语言专家的建议,选择音素作为建模单元;设计合适的印尼语发音词典,实现词到音素之间的映射。(2)研究基于深度神经网络的印尼语语音识别声学建模方法,设计并实现了基于DNN-HMM(Hidden Markov Model)的印尼语声学模型。考虑到DNN模型具有较高的自由度,选用时延神经网络(Time-Delay Neural Network,TDNN)取代DNN,以提升印尼语语音识别声学模型性能。在此基础上,针对TDNN对模型增加的约束对于长时语音的识别结果较差的问题,提出将时间约束的多头注意力机制与TDNN模型相结合以提升声学模型的性能,并用实验验证结合方式的有效性。(3)针对低资源条件下训练数据规模偏小的问题,采用多任务学习方法,将印尼语作为主任务,英语作为辅助任务,通过两个任务的联合训练,构建多任务的声学模型。根据多任务学习模型结构的特殊性,在联合训练的同时,还需要考虑任务之间的差异性。针对此问题,本文又分别设计了两种建模方式:传统多任务学习模型、含有属性依赖的多任务学习模型,并完成了两种模型的对比实验。此外,对所构建的多任务模型进行了瓶颈特征提取,并将该特征与Fbank+Pitch特征进行特征融合以提高模型的性能。(4)在低资源条件下,为了进一步提升印尼语语音识别的性能,本文利用迁移学习对语音识别系统进行了优化,根据语种之间的相似性,将英语作为源语言,印尼语作为目标语言,并将固定隐层迁移、Fine-Tuning(微调)和分层权重迁移三种迁移方法分别应用于基于深度神经网络的声学模型,并用实验验证各方法的有效性。实验结果表明,DNN-HMM、TDNN-HMM和TDNN-Attention-HMM模型的WER(词错误率)分别为9.24%、7.88%、7.77%;多任务学习方法中含有属性依赖的多任务学习模型的WER为7.69%,将在此模型上提取的瓶颈特征与Fbank+pitch特征进行特征融合后训练的模型WER为7.59%;基于TDNN-Attention-HMM的分层权重迁移模型WER为6.79%。实验结果验证了在低资源条件下本文提出并实现的三种提高印尼语语音识别模型性能的方法可行、有效。
其他文献
进入21世纪第二个十年以来,我国的人口结构及其增长趋势发生了很大的转变,进入了以生育率水平持续下降和人均预期寿命不断提高为主要特征的新常态。随着人口老龄化的持续加深,迫切需要构建人口与经济协调发展的新格局,促进人口与经济新常态下的社会可持续发展。《国家积极应对人口老龄化中长期规划》指出应对人口老龄化需要不断加强科技战略支撑、完善社会保障体系、增加人力资本积累,推动经济发展与老龄化发展状况相适应。经
学位
近年来,随着人工智能技术在船舶领域的发展与应用,无人船逐渐走入大众视野。国际海事组织(IMO)将无人船定义为在不同程度可以独立于人类活动而自主航行的船舶,简称(MASS)。无人船时代的到来符合当今社会发展趋势,它在维护海上公共安全、实现绿色可持续发展、应对持续的新冠肺炎疫情导致的海员严重不足的困境等方面发挥着重要作用。在2021年召开的中华人民共和国两会上,全国政协委员张海文建议尽早启动无人船问题
学位
新冠肺炎疫情下,国际经贸往来有所收缩,但经济全球化始终是不可逆转的趋势。受全球疫情冲击及国际局势影响,跨国企业面临经营困难及资金短缺的困境或会加重,在此情况下,企业被动进入破产程序或主动选择以破产方式进行自我保护的可能性均大为增加,因而跨境破产案件的数量在未来一段时间将会有大幅增长,跨境破产成为了无论是理论上还是实践中都无法回避的问题。考虑到国际商事仲裁在保密性、高效性、专业性和仲裁裁决跨境执行上
学位
《列子》是我国古代子学的重要代表作之一,本文将从《列子》的哲学思想出发,以其独特的死亡意识为切入点,探讨其中蕴含的生命伦理思想。《列子》的生命伦理思想以“气”的概念贯穿了其宇宙生成论、生死观和修养境界论,在对《列子》生命伦理思想梳理和论述的基础上,从而对《列子》全书的思想逻辑和特点有一个整体的把握和研究。首先,《列子》以“道”为核心的宇宙本体论和宇宙生成论明显的是老庄哲学的延续,但在“道”如何生成
学位
目的 探讨肝血管瘤患者在临床上的影像学表现特征及其价值。方法 分析我院经手术病理确诊为肝血管瘤的14例患者临床资料,对其进行CT、MRI检查,再选择15例经过手术病理确诊的肝癌患者为研究对象,分析CT扫描与MRI检查的肝血管瘤的检出情况,及肝癌与肝血管瘤的ADC值。结果 将手术病理结果与CT、MRI检查肝血管瘤的诊断结果进行比较,显示CT检查的诊断准确率为64.28%,MRI检查诊断准确率为92.
期刊
近年来,受国内融资环境趋紧、金融去杠杆政策影响,民营企业融资难融资贵问题日益凸显,借新债还旧债的资金运营模式已无法满足企业的经营需求,在内外部复杂因素的共同影响下,各行各业资金链断裂事件屡有发生,对市场经济秩序造成了巨大的困扰。2018年,正值国家生态文明建设、能源实现战略转型之际,我国生物质发电龙头企业凯迪生态却因发生资金链断裂而无法继续分享大好的政策红利,公司债务违约,大批电厂停产停业,诉讼和
学位
高校校园媒体是传播校园信息,维系校园共同体的重要平台,它具有联结师生,推动校园文化认同的作用。在媒介融合的时代背景下,高校融媒体建设成为各高校的重要任务。如何建立具有强连接性、强互动性和强传播力的融媒体中心是摆在高校面前的现实问题。目前,高校融媒体中心较少受到国内研究者的关注,暂未有研究系统探究高校融媒体中心的建设现状、建设路径。在此背景下,本研究聚焦于高校融媒体中心,引入社会学领域的AGIL理论
学位
《老子》道论深远意长,“道”作为核心概念融摄多种意义。学界关于老子道论的研究大多以本源、境界、规律等意义出发,或言之超越性、绝对性等诸性义。对于各家所言之道也都是从单个概念或角度出发,也即是单点式的论证,并未以结构整体的视角呈现其总体的结构性意义。故而本文试图回到《老子》文本,揭示其内在思维结构,从结构上展现《老子》道论的丰富义涵。另一方面,本文亦从结构上揭示其体道和悟道之工夫境界的价值意义。以意
学位
“直觉”是笛卡尔哲学体系的核心概念,也是当代知识论中先天辩护的重要来源。当代知识论学者普遍默认:以笛卡尔为代表的传统理性主义者设置了过高的知识标准。他们对此提出批评,认为先天辩护无需笛卡尔式“不可错的直觉”。本文的目的是理解笛卡尔哲学中理性直觉的辩护功能,并着重回应本儒和卡苏罗等当代学者对笛卡尔“理性直觉”的批评。回归笛卡尔认识论不仅有哲学史的研究意义,也能够通过重新梳理理性直觉的相关概念为现代认
学位
在大学生心理健康变得越来越重要的背景下,耐挫力作为影响大学生心理素质的一项重要能力越来越受到国家和社会的关注。2021年1月,教育部提出各大高校要构建挫折教育教学体系,加强大学生的挫折教育,着重提升大学生应对挫折的能力,优化大学生的心理品质。由此,大学生的耐挫力问题开始被纳入国家教育发展战略层面,而了解大学生的耐挫力发展状况也开始变得至关重要。本研究参照燕国材的耐挫力概念,把耐挫力界定为个体应对挫
学位