越南语连续语音识别系统关键技术研究及实现

来源 :战略支援部队信息工程大学 | 被引量 : 2次 | 上传用户:fish3321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音识别就是利用计算机将语音波形信号转化为文字信号,近些年来随着深度学习的进步,这项技术得到了快速的发展,语音信号的识别率得到了很大的提升。在工业、通信、汽车电子等方面得到了广泛的应用。随着近年来中越关系的升温,对越南语的相关人才和技术的需求也在不断增加。所以本文对语音识别领域现有的各种建模方法进行研究,引入端到端技术应用在越南语语音识别上,工程实现一个越南语连续语音识别平台。基于此平台可以加快现有语义识别技术成果在实际中的转化应用,不断促进该领域的研究发展。论文的主要工作包括:(1)研究并实现基于矩阵分解优化深度神经网络的声学模型。本文首先对越南语的书写和发音规律进行研究,实现越南语的音素集合划分,为后续语音识别特征提取、声学模型、语言模型、解码模型的构建奠定机理理论基础;其次在传统隐马尔可夫-深度神经网络模型基础上,重点研究了基于矩阵分解优化的越南语声学模型,能够对越南语声学特征进行更为精细刻画,且运算速度快;再次,分析了越南语的书写特点,并指出构建基于音节的语言模型的困难,研究提出了一种基于字节单元的语言模型。最后在选用的语料库上搭建了越南语连续语音识别系统。实验结果表明,基于矩阵分解优化深度神经网络的方法相对于已有主流算法,获得了更为优异的性能。(2)研究并实现了基于变换器(Transformer)的端到端越南语连续语音识别系统。首先研究了端到端系统的发展和建模的优势分析,并给出了注意力机制建模方法;其次,在自注意力和互注意力机制基础上,研究并实现了基于堆叠编译码器结构的变换器模型,详细给出了编码器网络构建、译码器网络构建、位置信息建模算法和模型构建准则;最后构建了基于堆叠编译码器变换器模型的越南语连续语音识别系统,将该模型的端到端系统与其他两种端到端模型进行比较,并且系统讨论了不同识别单元对变换器模型系统性能的影响。相比于传统声学模型、语言模型、解码器等框架结构的语音识别系统,该端到端系统具有结构简单、要求更少越南语先验专业知识等特点,具有较好的应用前景。(3)研究并实现了通用的越南语连续语音识别平台框架。首先根据对越南语的识别率、实时性要求及系统服务功能分析,详细设计了语音识别平台的总体框架,即采用云计算服务的软件架构;其次对系统的数据结构进行了详细的分析与设计,包括语音识别相关表、文件存储相关表、批量任务相关表、引擎及Worker配置相关表和系统基础配置相关表;再次对语音识别平台进行具体实现,包括用户账号管理、智能语音识别、识别结果分析、系统配置和系统管理等。本文设计的语音识别平台框架具有很好的通用性和扩展性,根据用户的具体需求提供定制化的解决方案,能从可靠性、快速响应及易用性等方面满足用户的需求。
其他文献
研究目的:探讨体外冲击波对兔跟腱重建后BTJ腱骨愈合影响的研究。研究方法:选用新西兰白兔行双侧跟腱损伤修复造模,右侧利用冲击波干预,左侧不干预。观察术后4周及8周时腱骨
用半经验分析方法和空腔膨胀解析分析模型,分别得出了弹体侵彻混凝土时侵彻阻力、侵彻深度与弹体结构、靶体特性参数和侵彻速度等主要影响因素的关系式。通过收集和分析国外实
滤波器设计是数字信号处理的主要内容,用滤波器对语音信号进行预滤波是比较经典的一种方法。文章详细介绍了用滤波法对语音信号进行预滤波的几种典型的仿真实现方法,主要包括
云计算是一种面向服务的计算模型,能够根据用户需求提供各种类型的服务。在资源调度过程中,虚拟化技术作为云计算的关键技术之一,能够在满足用户需求的前提下,有效实现资源的
急性应激反应出现在我们生活的各个方面。急性应激的适应性反应可以快速调动身体资源全力帮助我们应对环境需求。然而,急性应激源消失后,应激反应恢复的延迟可能会给个体的身心健康带来严重后果。由于应激反应及恢复有较大的个体差异,对个体应激反应的恢复进行预测,有助于我们及早筛查应激恢复不良人群,早预防应激障碍相关疾病的发生,并可能为高应激相关职业供潜在人才选拔指标。本研究利用事件相关电位(ERP)技术,测量反