基于迁移学习的东干语语音识别的研究

来源 :西北师范大学 | 被引量 : 0次 | 上传用户:tinacat
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着深度学习神经网络的兴起,人工智能成为21世纪快捷生活的潮流标志,涉及各个学科领域。作为人工智能的经典代表,语音识别技术实现了人与计算机无障碍交流的愿望,获得了快速发展并已成功应用于很多行业。然而目前语音识别技术的研究大都针对汉语、英语等主流语种;对少数民族语言语音识别的研究只实现了藏语和维语等个别语种;缺少对跨境方言和低资源语种的语音识别研究。因此本文针对汉语的跨境方言、低资源东干语的语音识别展开研究,主要工作和创新点如下:1.建立了东干语陕西方言语料库。追溯东干语的来源,分析东干语的词汇构成和句式特点,从人们日常交往用语,俗语和儿歌中收集整理出4000句东干语文本。该文本包含东干语所有的声母、韵母和声调。基于文本语料,邀请5位东干族大学生在室内环境中录制了相应的语音语料,最终将录好的6小时音频以16k Hz的采样率、16位采样精度保存为单声道的WAV格式文件。2.实现了3种端到端的东干语语音识别模型。论文分别实现了基于Transformer模型、基于LSTM-CTC模型和基于GRU-CTC模型的东干语语音识别模型。实验结果表明,基于Transformer模型的东干语语音识别效果稍优于其他两种,字错率为49.6%。基于LSTM-CTC和GRU-CTC模型的字错率分别为56.2%和51.9%。由于GRU模型结构比LSTM简单,训练复杂度较低,因此基于GRU-CTC模型的东干语识别效果好于LSTM-CTC模型。分析上述实验结果,发现低资源的东干语由于缺乏语料数据,直接用端到端的方法训练端到端的语音识别模型,语音识别效果差。3.针对语料不足引起的端到端模型训练出的东干语语音识别效果差的问题,提出了结合迁移学习策略和端到端模型的东干语语音识别方法。论文设计了3个基于迁移学习的端到端东干语语音识别模型。首先通过汉语和东干语的语言相似性分析,确定利用汉语作为迁移学习的源任务辅助训练模型;然后通过分析神经网络的可迁移性,采用Softmax层迁移和Fine-tuning的迁移方法;最后对实现的3种端到端东干语语音识别模型进行迁移。实验结果表明,采用Fine-tuning迁移方法的识别效果优于Softmax层迁移。而且利用Fine-tuning迁移方法的Transformer模型的性能最好,将东干语语音识别的字错率降低至30.4%。说明迁移学习能有效解决语料数据缺乏的问题,显著提升东干语语音识别的准确率。
其他文献
磁性材料具有独特物理、化学性能使其在现下信息时代中被广泛的应用,在磁记录、微波吸收材料、电子存储器件、催化、气敏等方面的应用备受关注。Ni-Mn-Co铁氧体材料由于其较强的性能在气体传感器中有较为广阔的应用,Ni-Mg-Co铁氧体在磁化强度以及矫顽力较高的条件下,在高密度记录材料中被广泛的应用。本文采用较为经济的溶胶-凝胶法制备Ni-Mn-Co、Ni-Mg-Co铁氧体材料,通过金属离子掺杂,研究非
学位
自然闪电回击电流强度是反映闪电放电特性的关键参数。本文基于在青海地区拍摄的闪电光谱,详细研究了光谱特征与回击电流强度的相关性。闪电光谱主要由离子、原子和连续辐射组成。不同激发能量的谱线强度变化是反映光辐射通道内能量特性的重要可观测信息。结合与光谱同时记录到的闪电引起的地面电场变化波形,分析了闪电光谱特性与地面电场变化初始峰值以及通道放电峰值电流之间的关系。研究发现,对于所研究的大多数闪电,离子线强
学位
随着经济的大力发展,我国汽车保有量逐年增加,不仅仅对人们的出行带来了不便,而且为交通部门的管理带来巨大了压力。随着大数据与深度学习的流行,交通管理逐渐步入智能化,出现了基于视频的智能化交通控制系统,大大提高了车辆管理的效率。为了能够更好的对交通进行有效地管理,研究智能化交通控制系统的构成部分如车辆检测、跟踪、统计、分割是十分有必要的。在目标检测时,本文通过分析常用的目标检测算法,发现使用检测算法Y
学位
安检是人们出行的一道重要安全保障,对于安检需求的快速增长推动了智能安检技术的发展。X光安检违禁品检测存在安检图像背景复杂、违禁品姿态多变、小目标漏检、数据标注困难等问题,加之X光成像效果也与自然图像存在极大差异,导致传统的目标检测算法效果不佳。本文提出了一种弱监督机制下的X光安检违禁品检测模型,改进Resnet50框架,融合可变形卷积和空洞卷积,设计了4种在主干网络不同位置添加可变形空洞卷积模块的
学位
高能量密度物质指的是能量密度大于1011J/cm~3或对应的等效压强大于1 Mbar的一种极端状态的物质,这种物质广泛存在于天体环境中,如恒星与大型行星内部,是宇宙能量的主要来源之一。在聚变能源领域,由于惯性约束聚变中靶物质的演化过程主要发生在高能量密度物质阶段,因此,对高能量密度物质的研究也是惯性约束聚变发展的核心内容之一。在高能量密度物理研究中,靶核心区域的物质状态与物理特性是重要的研究内容。
学位
勘察设计作为基础设施建设的基础,在新基建背景下要求从侧重管理上协同的“多测合一”到全体系的数据链信息协同,借助多种勘察设计新技术与新基建技术体系实现勘察设计一体化、智能化,推动数字基建孪生综合体建设与智能化协同,最终服务于未来智慧都市圈经贸、文化交流。智能化勘察设计发展的重要性可见一斑,因此新基建背景下的智能勘察设计发展牵动着整个智慧基础设施实现的大局,影响不同区域乃至国内经济循环大动脉,文章从智
期刊
激光技术的发展极大地促进了激光-物质相互作用的研究领域,特别是啁啾脉冲放大技术(CPA)的出现为人们创造前所未有的强场环境。研究原子在强场中的动力学性质,如多光子电离、隧穿电离、非序列电离和高次谐波等,为揭示物质结构甚至改造物质性质提供重要认知基础。高次谐波作为实现极紫外相干光源和超快探测的潜在手段已引起人们极大的兴趣;对于介于微波和红外之间的太赫兹波源而言,强激光场与等离子体相互作用能够产生强的
学位
大数据时代,随着数据分析和利用等技术不断发展,数据成为重要的社会生产要素。虽然《民法典》和《数据安全法》中对数据保护作出了基础性的规定,但关于数据权益的法律性质及分配机制缺少具体界定,导致实务界和理论界都存在很大争议。本文通过对我国“深圳市谷米公司与武汉元光公司不正当竞争纠纷”、“饭友App抓取微博数据不正当竞争纠纷”等涉大数据纠纷案件的实证分析发现,我国现行与“数据”相关的法律法规无法满足大数据
学位
图像语义分割是对图像中的每一个像素按照图像传达出的不同语义类别进行划分,是目前计算机视觉领域中一个重要的研究课题,在自动驾驶、视频监控、嵌入式设备等方面有着广泛的应用。传统的图像分割方法着重于使用表层特征和外部结构特点进行图像分割,需人工设计特征规则,操作复杂且在性能上无法满足当前的需求。随着深度学习技术的快速发展,相较于传统的分割方法,基于深度卷积神经网络的语义分割方法在图像分割任务中展现出了更
学位
革命时期,中国人民在中国共产党领导下,充分利用红色音乐的宣传、教育和引导作用,极大推进了中国革命事业发展。红色音乐根植于波澜壮阔的历史时代,体现中华优秀传统音乐文化的传承性、彰显顽强不屈斗争精神的革命性、凝聚团结奋进开拓精神的先进性、展现雅俗共赏大众属性的人民性等民族特质。红色音乐对增强国家认同发挥了重要作用,主要表现在民族认同、政治认同和文化认同三方面。
期刊