泰语文语转换系统中的文本分析和处理

来源 :云南大学 | 被引量 : 0次 | 上传用户:psiteddd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音合成是用计算机将输入文本转换为人能听懂的语音信号的过程。语音合成和语音识别是实现人机语音通信的必要支撑技术。文语转换系统是现阶段实现语音合成的有效方式,合成语音的自然度已成为影响该技术推广应用的关键。文语转换系统,分为前端文本分析模块和后端语音合成模块,文本分析与处理的效果将直接决定合成语音的自然度。本文以开发泰语文语转换系统为目的,研究并实现泰语文本分词、归一化以及罗马化。论文的主要工作包括:1.针对泰语特点,构建泰语字符连缀集,并将其应用于前后向最大匹配分词算法中。实验结果表明,含未登录词语料的分词正确率,可由85.69%提升到94.04%。2.提出基于规则和关键词相结合的方法,实现泰语文本归一化。在特殊字符处理模块中,先对泰语文本中出现的数字、物理单位、货币符号、缩略语等的特殊字符进行分类。归纳易产生歧义的字符类型,构建关键词词典。在此基础上,编写C语言程序进行特殊字符的处理,成功将其转化为标准的泰语文本。实验结果表明:集内测试正确率为97.83%,集外测试的正确率为97.12%,且大部分非标准词的消歧正确率达到95%以上。3.根据泰语音节结构的特点,归纳、整理元音和辅音以及韵母中的元音和尾辅音的搭配规则,在此基础上,以音节为基本单元,用Perl脚本语言编写程序实现泰语文本的罗马化。测试结果表明,罗马化结果可满足后端语音合成的要求,并从中可体现分词、文本归一化的结果。
其他文献
高中生进行数学解题时,常常由于无法找到解题突破口,给学生学习造成一定影响.教师基于学情引导学生掌握等价转化解题思想,为学生数学解题提供新的路径.由于高中数学解题教学
期刊