基于在线的维吾尔语语音语料库的建立及应用

来源 :新疆大学 | 被引量 : 0次 | 上传用户:hoko0428001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
建立丰富的语音语料库是研究语音技术的基础,从工程方面看,语音语料库是更加完善语音技术的重要环节之一。针对现有的维吾尔语语音语料库的规模不大以及发音人员年龄和地区方面不平衡等问题,面对深入研究发展的需求,维吾尔语语料库急需扩大,尤其是对语音数据的多样化需要改进,使其更加实用化。因此,本文研究了维吾尔语语音语料库的建立方法及语料库在语音识别中的应用。主要研究内容如下:1)对传统的语音采集和语音语料的标注方法进行了改进。语音语料的采集需要大量的人力和时间。为了解决这一问题,配合维语语音数据采集工作,定制了维语录音工具,目的是简化录音流程,使其更加方便地进行远程数据采集与异地支持等工作。任何人都可以使用该平台进行语音采集数据。为了提高语音标注工作的效率,设计了相应的语音标注平台。这些新方法在实际应用中取得了很好的效果。2)根据维吾尔语的语言和语音特征,构建了多样化的大规模语音语料库。每一种方言中,根据地区的不同还包含了一些土语。有些同样的词在不同的方言中发音不一样。除此之外,不同年龄人的发音特征,韵律特征有一定的差异。因而,采集各地区的方言语音和各年龄段不同文化程度的自然人的语音数据,对语音识别中的特征参数提取和声学模型的优化有着一定的研究意义。目前影响提高识别率的关键因素就是语音的多变性问题。建立包含尽可能多语言现象的语料对语音的分析和识别工作至关重要。而提高语音语料库质量的另一个关键是选取覆盖尽可能多语言现象的文本。本文我们用常用词包含程度和三音子包含程度两种方法进行语料的筛选工作并与传统的随机筛选方法做了对比实验,其中本文提出的三音子筛选方法的覆盖率达到了91%。3)最后,利用语音识别技术中广泛应用的HMM和DNN两种方法对采集的语音语料的一部分进行声学特征提取和声学模型建模并进行了连续语音识别实验。实验中,在语言模型方面,采用了N-gram语言模型,在Linux环境下借助kaldi语音识别工具箱进行了对比识别实验。实验结果表明针对大规模的语音数据来说,DNN声学模型的语音识别结果更好。本文中基于DNN模型的识别率达到了84.49%。相比传统的模型,系统的识别率提高了1.77%。
其他文献
近年来,网络接入设备成本降低、接入技术多样化,使利用多网络接口实现数据的并行多路传输成为可能,特别是应急通信、视频会议、多方游戏等高带宽需求的业务,促进了并行多路传输的
面孔表情是日常生活中一种重要的非语言交流方式,它蕴含着诸多情绪信息,在社会交往活动中扮演着至关重要的角色。本文使用事件相关电位(event-related potentials,ERPs)技术,
连续相位调制(CPM)是一类包络恒定、相位连续变化的高性能的非线性数字调制体制。由于包络恒定,CPM对信号幅度变化不敏感,所以尤其适合于采用高效非线性放大器的通信系统;同时它
现代雷达经常需要发射宽带甚至超宽带信号,而奈奎斯特(Nyquist)采样定理的限制使得大带宽信号的采样很难实现。基于信号稀疏性的压缩采样(CompressiveSampling,简称CS)理论能够
全球各地目前使用很多种相似的文种。近年来,数字文件处理在办公和图书馆自动化、银行和邮政业务、出版社和通信管理等领域的应用中日益普及。对于能够搜索多语言信息的书面
随着物联网技术的不断发展和导航定位需求的快速增加,室内定位已成为全球定位系统在室内环境的重要补充,也是目标全程跟踪定位的瓶颈。由于室内传输环境的复杂性和干扰源的多样
近年来,全球移动通信正朝着分组化、低延时、服务差异化方向发展,为此3GPP组织提出了长期演进和系统架构演进两大研究计划。在演进的分组系统中,EPS会话管理子层将真正让用户体
在无线通信系统中,多输入多输出(MIMO:Multiple Input-Multiple Output)技术是对抗多径衰落的有效途径,并且能够提供更高的传输速率以及较好的通信质量。但是受到体积、功率等因
随着三维成像产品在新兴市场上的开拓,三维视频已成为近年来研究的活跃领域。相比于现有的二维产品,三维视频是能够提供更加逼真和身临其境的感性体验的关键所在。在三维视频
为了满足移动数字体验,人们对通信设备的要求越来越高,这主要是针对设备的移动性,因此在移动设备中完成数据接收和传送的无线模块必须具有较小的体积和重量来适应便携要求;而