【摘 要】
:
随着研究人员对英文语音识别和语音合成技术的深入研究,英文发音词典作为这两项技术中连接声学模型和语音模型的重要一环,其构造方法也有了很大的发展。但是,现有的英文发音词典构造方法仍然存在着例如依赖于语音和文本平行语料、数据采集困难、专家标注成本高等一系列的问题,因此需要研究更有效的方法提升发音词典构造效率。为解决上述问题,本文开展了基于非平行语料的英文发音词典构造方法的研究,主要内容如下:首先,本文针
论文部分内容阅读
随着研究人员对英文语音识别和语音合成技术的深入研究,英文发音词典作为这两项技术中连接声学模型和语音模型的重要一环,其构造方法也有了很大的发展。但是,现有的英文发音词典构造方法仍然存在着例如依赖于语音和文本平行语料、数据采集困难、专家标注成本高等一系列的问题,因此需要研究更有效的方法提升发音词典构造效率。为解决上述问题,本文开展了基于非平行语料的英文发音词典构造方法的研究,主要内容如下:首先,本文针对传统的基于序列到序列的字母转音素(Grapheme to Phoneme,G2P)模型进行研究,采用了基于长短时记忆网络的编码器-解码器(Encoder-Decoder+LSTM)深度神经网络模型结构来代替原有的G2P模型。同时提出了音素转字母(Phoneme to Grapheme,P2G)模型来和G2P模型作为同时训练的对照模型,P2G模型结构采用基于注意力机制的编码器-解码器(EncoderDecoder+Attention)深度神经网络模型。进行实验分析之后,基于混合模型的方法和基于传统的序列到序列方法相比,词错误率(Word Error Rate,WER)降低了7.1%,音素错误率(Phoneme Error Rate,PER)降低了2.3%。其次,针对现有发音词典构造方法中存在的模型训练效率低、规模小及专家校正的人力成本大等问题,本文在模型训练之后的后处理步骤中提出了主动学习模块来解决这些问题。通过计算G2P模型和P2G模型输出的二元组匹配度,并针对低匹配度的二元组进行鉴别性样本抽取,最终得到最具有代表性的少量鉴别性样本来进行专家校正工作,从而最大程度减少了人工参与。
其他文献
近几年,公共场所佩戴口罩已经成为大多数国家的共识。同时卷积神经网络在图像识别领域有着良好的应用前景,卷积神经网络需要大量的资源和内存,并且计算量大,FPGA凭借其可重构、低延迟和低功耗等特点,成为主流的应用平台之一。本文通过在FPGA端部署卷积神经网络并识别口罩佩戴情况主要研究成果如下:1.在软件端,利用自主设计的卷积神经网络检测口罩佩戴情况,得到98.5%的识别准确率,并可区分出佩戴口罩不规范和
内蒙古自治区是全国五大牧区之一,在全国畜牧业中占据重要的地位。自治区的发展战略目标中提到,要逐步推进新型的信息科技在畜牧业中深层次的融合应用。其中,牛的个体识别技术对智慧牧场建设和畜牧业保险有着重要意义。三维识别方法比二维识别能提供更丰富的空间信息,可以更精准地进行个体识别。而在三维识别中,牛面部的三维重建是至关重要的一环,对畜牧业的智慧管理具有一定的应用价值。本文针对牛面部三维图像重建的主要研究
随着互联网的兴起和普及,我们进入了一个人人都生产数据的时代,需要处理和存储的数据呈指数式的增长,但传统的数据处理和存储技术却遭遇了瓶颈。而云计算作为海量数据处理和存储的主流平台应运而生。Hadoop则是云计算开源的分布式并行计算框架之一,由Apache旗下基金会发布,被广泛地应用于众多大公司,例如雅虎、脸书、亚马逊、谷歌、微软等。因此,Hadoop渐渐地成为了云计算平台海量数据处理和存储的主流框架
近年来深度学习广泛应用于图像分类、目标检测、图像分割、语音识别等众多领域中.图像修复是计算机视觉领域中的一个重要课题,常见于影视娱乐、医疗影像、公共安全、文物修复等日常生活的方方面面,其主要任务是利用图像整体结构纹理重绘缺失部分的细节,使修复完成的图像内容和谐一致.深度学习很好地解决了传统图像修复的局限,提高了修复模型的学习能力,显著改善了修复效果.时至今日,人们针对不同问题提出了众多图像修复的方
ARINC429是航空电子设备中广泛使用的一种总线协议。近年来,随着我国航空航天技术不断发展,对航空通讯设备的需求越来越大。国内航空通讯设备所用集成电路芯片长期依赖进口,经常面临各种限制问题,因此我国迫切需要拥有自主研发的航空通讯设备。本论文旨在研制一款基于CPCI总线的国产化ARINC429通讯模块,该模块可以提供4路ARINC429接收通道和2路ARINC429发送通道,采用国内先进的集成电路
自旋转移矩磁随机存储器(Spin-Transfer Torque Magnetoresistance random access memory,STT-MRAM)有望代替传统存储器,其高效,非易失性,存储时间长等优点引起了人们的关注。随着科技的不断进步,存储器也不断面临新的挑战。近年来,随着MRAM的存储密度不断增加,尺寸不断减小;同时,还要通过增强磁各向异性来提升存储器的热稳定性。如何可以更好地
面向汉语、英语等大语种的语音交互系统已经应用于科技和生活的各个方面,极大地提高了信息获取效率。而蒙古族人民也对语音交互系统有广泛的需求,希望使用蒙古语与智能设备交互。因此本文设计并实现了面向蒙古语的语音交互系统,本系统由蒙古语语音识别、问答系统、语音合成三部分组成。其中问答系统是语音交互系统的核心部分,问答模型性能的好坏直接影响语音交互系统生成回答的语言质量。目前还没有公开的高质量蒙古文问答语料库
语音增强的目标是抑制噪声,增强期望的语音信号。基于信号处理的传统语音增强方法为了简化计算或获得解析解做了许多假设,在低信噪比与包含非平稳噪声的场景下会出现严重的性能下降。基于深度学习的语音增强方法具有强大的非线性映射能力,在拥有大量训练数据的前提下有望超过传统方法。目前,基于深度学习的主流增强方法通常将语音增强任务建模为全频带谱映射问题,间接忽视了语音增强领域过去几十年的经验积累。基于信号处理的传
语音增强旨在利用信号处理技术及各种算法提高语音的质量与可懂度。作为语音识别系统的前端模块,它在语音交互、电话会议、听力辅助以及军事窃听等场景中发挥重要作用,得到了学术界和工业界的广泛关注。与传统方法相比,基于深度学习的语音增强方法在应对低信噪比以及非平稳噪声方面表现突出,但在一些方面仍然存在不足。深度学习框架下的语音增强方法,通常使用均方误差(MSE)作为优化模型参数的目标函数。但一些研究表明,具
随着物联网的发展和移动设备的普及,室内位置感知服务需求与日俱增。基于位置指纹的无线室内定位技术因原理较为简单、成本相对较低和普适性强的特征受到了学术界和工业界的广泛关注。现有研究表明,通过优化室内环境中Wi-Fi接入点和低功耗蓝牙(Bluetooth Low Energy,BLE)基站的部署位置可提升定位精度,但仍然存在以下问题:(1)采用启发式搜索算法易得到局部最优解,并且解决大场景问题时,需耗