THUYG-20:免费的维吾尔语语音数据库

来源 :清华大学学报(自然科学版) | 被引量 : 0次 | 上传用户：

【摘要】

：

语音数据资源是语音识别研究的基础。当前国内只有为数不多的开放的语音数据库供研究者免费使用,特别是在维吾尔语等少数民族语音识别方面,数据资源更为贫乏。该文发布一个完

【作者】

：

艾斯卡尔·肉孜殷实张之勇王东艾斯卡尔·艾木都拉郑方

【机构】

：

清华大学计算机科学与技术系清华信息科学技术国家实验室信息技术研究院,新疆大学信息科学与工程学院,

【出处】

：

清华大学学报(自然科学版)

【发表日期】

：

2017年02期

【关键词】

：

维吾尔语 THUYG-20 语音识别数据库建设测试数据连续语音语音数据训练数据语言模型文本数据

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

语音数据资源是语音识别研究的基础。当前国内只有为数不多的开放的语音数据库供研究者免费使用,特别是在维吾尔语等少数民族语音识别方面,数据资源更为贫乏。该文发布一个完全免费的维吾尔语连续语音数据库,该数据库包括约20h的训练数据和1h的测试数据,同时介绍了构建维吾尔语语音识别系统所需要的音素集、词表、文本数据等相关资源,以及用于构建基线系统的脚本。给出了该基线系统在纯净测试数据和噪声测试数据上的识别性能。该数据库为维吾尔语语音识别研究提供了可以借鉴的标准数据库。 Speech data resources are the basis of speech recognition research. Currently, only a few open voice databases are available for researchers in China free of charge. In particular, data resources are even more scarce in ethnic minority languages such as Uyghur. The article publishes a completely free Uyghur continuous speech database, which includes about 20h of training data and 1h of test data. At the same time, it introduces related resources such as phoneme sets, vocabularies and text data needed for constructing Uyghur speech recognition systems , As well as the script used to build the baseline system. The recognition performance of the baseline system on pure test data and noise test data is given. The database provides a standard database for Uyghur speech recognition research.

其他文献

多次合作下的评级高估:源于关系还是经验

在我国债券市场中,企业与评级机构有着较为稳定的合作关系;同时随着合作的增加,企业债券的信用评级也呈现出上升趋势。这一现象的产生可能有两方面的原因:一是合作关系使企业

期刊

信用评级干中学评级高估评级结果我国债券市场虚拟变量显著性水平债券发行股票市场控制变量

看智能移动终端如何赢得安防市场

引言智能移动终端在一般读者看来应该是指手机、PDA等,随着手机上网资费的不断下降,无线网络的大面积覆盖,微博、游戏、影视、音乐等各类互联网应用开始向智能终端迁移,加速

期刊

智能终端移动终端安防互联网应用游戏无线网络手机上网面积覆盖资费娱乐影视音乐迁移读者

电影电视,舶来品更吃香?

在文化交流开放的今天,电影电视节目被视为一股重要的文化力量。对于中困的观众来说,每年引入的好莱坞大片为大家献上了一顿顿视觉的饕餮盛宴,网站上置顶的各类日韩英美泰剧

期刊

电影电视typical examplehigh technologythe world

试论带结构转换层的高层建筑结构设计

快速发展的经济与社会,对建筑行业提出越来越高的要求.尤其是在质量方面必须在原有基础上有所提升.人们不断丰富的物质生活水平,也是提高对建筑要求的重要因素.不断增加的高

期刊

结构转换层高层建筑结构设计

系统兼容带来的隐形捆绑——以某学校信息化设备采购项目为例

案例简介某市属学校信息化设备采购,项目预算467万元。采购内容为:校园一卡通、监控、网络安全、网络汇聚层等。经专家论证后,进行了公开招标,共五家省内投标单位参与了投标

期刊

大黄鸭香港“漏气”众网友调侃原因是“太累”

期刊

概念设计与结构措施在建筑结构设计中的应用分析

建筑行业是我国社会经济发展的支柱型产业,也是推动我国城市化进程不断加快的基础产业.近年来,社会发展对建筑结构质量提出了更高的要求,这就要求工程设计单位要优化和完善建

期刊

概念设计结构措施建筑结构设计

抓住核心势如破竹——谈电学实验的解题策略

期刊

抓住核心电学实验

单词拼写在英语应用能力的锻炼

本文主要介绍了单词与英语应用能力的关系,提出在单词拼写中应注意的事项,以这些注意事项为准则来完成单词拼写,进而达到锻炼检测学生英语应用能力的目的。 This paper main

期刊

单词拼写英语应用注意事项

移动视频监控技术在易守系统中的应用

所外就医是监外执行的一种,网络信息化技术的发展助力于所外就医管理,移动视频监控技术在易守系统中的应用可以有效防止发生所外就医脱逃事件,筑起科技防线。基于所外就医的

期刊

移动视频监控安全预防

THUYG-20:免费的维吾尔语语音数据库

与本文相关的学术论文