词法规则在维吾尔语语音识别中的应用

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:shijinya
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动语音识别技术经过60多年的研究和开发,取得了很大进展。目前,英语、汉语等大语言的语音识别技术逐步成熟,开始进入商用阶段。维吾尔语语音识别研究在近几年才得到重视,在研究过程中主要借鉴大语言中成熟的语音识别技术。但是维吾尔语的语言特点不同于英语、汉语,因此在维吾尔语语音识别研究中,仍存在很多问题亟待解决。   维吾尔语是一种粘着语。最主要的特点是词具有丰富的形态变化,既导致语音识别系统要处理的词汇量急剧增长,也产生了大量的未登录词(Out of Vocabulary words,OOV词)。这给维吾尔语语音识别研究带来了极大的挑战,采用何种策略处理这个难题,是一个重要的研究课题。除此之外,在词的形态变化过程中,存在着元音弱化、脱落、增音等语音现象。这些语音现象对语音识别的性能产生了一定的影响,因此,有必要研究这些语音现象的处理方法。   针对上述难题,本文重点关注维吾尔语的形态变化系统,研究了维吾尔语词切分算法,研究了基于子字单元的维吾尔语语音识别系统,同时研究了对元音弱化、脱落、增音等语音现象进行建模的方法。   本文的主要工作包括以下几个方面:   1.维吾尔语语音识别研究中的OOV问题   维吾尔语的形态变化导致语音识别研究面临严重的OOV问题。为了定量研究OOV问题对维吾尔语语音识别系统识别性能的影响,本文提出了一种基于三音素的最佳文本挑选算法,通过算法来控制测试集OOV比率,建立不同的测试集。使用Python语言实现了本文提出的算法,将其应用于一个电话语音库的文本转写,构建了维吾尔语电话语音库。实验结果表明当测试集OOV比率较高时,能降低测试集OOV比率的技术才能有效的提高语音识别系统的识别性能。   2.维吾尔语词切分算法   词切分算法研究是维吾尔语自然语言处理研究的基础工作。本文研究了维吾尔语中词的形态变化,描述了词干和词缀在组合成词时需要遵循的词法规则。通过收集词干库和词缀库,实现了基于规则的维吾尔语词切分算法,并提出了一种规则和统计相结合的维吾尔语词切分算法。该算法保留了基于规则的词切分算法的优点,同时可以对未登录词进行切分处理。实验结果表明该算法具有最好的词切分性能。   3.基于子字单元的维吾尔语语音识别研究维吾尔语具有丰富的形态变化,产生了大量的OOV词,给维吾尔语语音识别研究带来了巨大的挑战。针对该问题,本文研究并构建了基于子字单元的维吾尔语语音识别系统。在基于子字的语音识别实验中,采用不同的词切分算法来生成子字序列,对比了不同子字单元在语音识别中的性能。   4.在语音识别中对语音现象进行建模处理在维吾尔语中,当在一个词上添加特定的词缀时,会发生元音弱化、脱落、增音等语音现象。本文对这些语音现象进行了研究,提出了一种在语音识别中对这些语音现象进行建模的方法。该方法使用基于规则的词切分算法来识别这些语音现象,生成变形词干库,然后使用变形词干库,生成多发音字典对这些语音现象进行建模处理。实验结果表明该方法有效的提高了语音识别系统对识别单元的识别率。
其他文献
入侵检测是一种用于检测计算机网络系统中入侵行为的网络信息安全技术。在计算机安全中,伪装者试图扮演合法用户的角色进入系统,是一种入侵活动。及早有效地发现入侵是保障计算
如今环境污染越来越严重,水资源紧缺问题愈益突出,如何才能有效地保护水资源已提上了人们的议程。森林作为陆地生态系统的主体,在水源涵养方面发挥着巨大的作用。在水资源短缺的
作为云计算和新兴Web2.0互联网应用的核心技术之一,分布式文件系统是当前存储系统技术领域的研究热点。分布式文件系统的资源共享、对存储平台的抽象性和隔离性、大规模扩展
高性能计算是科技创新的重要手段,随着国民经济的迅速发展,提供高效快捷的应用服务成为高性能计算应用领域研究的热点。本文从高性能应用的需求出发,分析了当前高性能应用的不足
随着多媒体技术、互联网技术、移动通信技术和VLSI技术的飞速发展,数字视频在人们日常生活中扮演着越来越重要的角色。数字视频资源的爆炸式增长和新应用需求的不断涌现,向视频
近年来,大部分高校,企业或者政府的业务基本都是通过MIS系统来实现,MIS系统涉及的领域越来越广。MIS(管理信息系统,Management InformationSystem)系统,主要指的是进行日常事
心率变异性(Heart rate variability,HRV)是指心率节奏快慢随时间所发生的变化。HRV的研究目的是分析逐个心动周期的细微的时间变化及其规律。这种变化在体表记录的常规心电
社区问答系统已成为互联网上信息获取和知识分享的重要媒介。例如Yahoo!Answers、百度知道等社区问答网站每天发布有数以万计的问题。与此同时,社区问答系统也积累了数以亿计
数据处理是计算机最核心任务之一。随着互联网和计算机技术的发展,电子数据量的急剧增加,普通计算机系统的处理能力已经不能满足大规模数据处理的需求;同时,随着Web2.0和社交网
中小学代数应用题的研究一直是国内外智能教学系统的研究热点,随着语言描述复杂性的提高及方程解题思想的引入,代数应用题智能教学系统面临更大的困难。本研究以我国中小学代