THUYG-20:免费的维吾尔语语音数据库

来源 :清华大学学报(自然科学版) | 被引量 : 0次 | 上传用户:
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音数据资源是语音识别研究的基础。当前国内只有为数不多的开放的语音数据库供研究者免费使用,特别是在维吾尔语等少数民族语音识别方面,数据资源更为贫乏。该文发布一个完全免费的维吾尔语连续语音数据库,该数据库包括约20h的训练数据和1h的测试数据,同时介绍了构建维吾尔语语音识别系统所需要的音素集、词表、文本数据等相关资源,以及用于构建基线系统的脚本。给出了该基线系统在纯净测试数据和噪声测试数据上的识别性能。该数据库为维吾尔语语音识别研究提供了可以借鉴的标准数据库。 Speech data resources are the basis of speech recognition research. Currently, only a few open voice databases are available for researchers in China free of charge. In particular, data resources are even more scarce in ethnic minority languages ​​such as Uyghur. The article publishes a completely free Uyghur continuous speech database, which includes about 20h of training data and 1h of test data. At the same time, it introduces related resources such as phoneme sets, vocabularies and text data needed for constructing Uyghur speech recognition systems , As well as the script used to build the baseline system. The recognition performance of the baseline system on pure test data and noise test data is given. The database provides a standard database for Uyghur speech recognition research.
其他文献
在我国债券市场中,企业与评级机构有着较为稳定的合作关系;同时随着合作的增加,企业债券的信用评级也呈现出上升趋势。这一现象的产生可能有两方面的原因:一是合作关系使企业
引言智能移动终端在一般读者看来应该是指手机、PDA等,随着手机上网资费的不断下降,无线网络的大面积覆盖,微博、游戏、影视、音乐等各类互联网应用开始向智能终端迁移,加速
在文化交流开放的今天,电影电视节目被视为一股重要的文化力量。对于中困的观众来说,每年引入的好莱坞大片为大家献上了一顿顿视觉的饕餮盛宴,网站上置顶的各类日韩英美泰剧
快速发展的经济与社会,对建筑行业提出越来越高的要求.尤其是在质量方面必须在原有基础上有所提升.人们不断丰富的物质生活水平,也是提高对建筑要求的重要因素.不断增加的高
案例简介某市属学校信息化设备采购,项目预算467万元。采购内容为:校园一卡通、监控、网络安全、网络汇聚层等。经专家论证后,进行了公开招标,共五家省内投标单位参与了投标
期刊
期刊
建筑行业是我国社会经济发展的支柱型产业,也是推动我国城市化进程不断加快的基础产业.近年来,社会发展对建筑结构质量提出了更高的要求,这就要求工程设计单位要优化和完善建
本文主要介绍了单词与英语应用能力的关系,提出在单词拼写中应注意的事项,以这些注意事项为准则来完成单词拼写,进而达到锻炼检测学生英语应用能力的目的。 This paper main
所外就医是监外执行的一种,网络信息化技术的发展助力于所外就医管理,移动视频监控技术在易守系统中的应用可以有效防止发生所外就医脱逃事件,筑起科技防线。基于所外就医的