泰语文语转换系统中的文本分析和处理

来源 :云南大学 | 被引量 : 0次 | 上传用户:psiteddd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音合成是用计算机将输入文本转换为人能听懂的语音信号的过程。语音合成和语音识别是实现人机语音通信的必要支撑技术。文语转换系统是现阶段实现语音合成的有效方式,合成语音的自然度已成为影响该技术推广应用的关键。文语转换系统,分为前端文本分析模块和后端语音合成模块,文本分析与处理的效果将直接决定合成语音的自然度。本文以开发泰语文语转换系统为目的,研究并实现泰语文本分词、归一化以及罗马化。论文的主要工作包括:1.针对泰语特点,构建泰语字符连缀集,并将其应用于前后向最大匹配分词算法中。实验结果表明,含未登录词语料的分词正确率,可由85.69%提升到94.04%。2.提出基于规则和关键词相结合的方法,实现泰语文本归一化。在特殊字符处理模块中,先对泰语文本中出现的数字、物理单位、货币符号、缩略语等的特殊字符进行分类。归纳易产生歧义的字符类型,构建关键词词典。在此基础上,编写C语言程序进行特殊字符的处理,成功将其转化为标准的泰语文本。实验结果表明:集内测试正确率为97.83%,集外测试的正确率为97.12%,且大部分非标准词的消歧正确率达到95%以上。3.根据泰语音节结构的特点,归纳、整理元音和辅音以及韵母中的元音和尾辅音的搭配规则,在此基础上,以音节为基本单元,用Perl脚本语言编写程序实现泰语文本的罗马化。测试结果表明,罗马化结果可满足后端语音合成的要求,并从中可体现分词、文本归一化的结果。
其他文献
近年,中心动脉压得到了医疗界的高度重视。2006年,欧洲最大规模高血压研究ASCOT的亚组研究CAFE(Conduit Artery Function Evaluation)的研究结果显示:中心动脉压和中心脉压比外
目的::对绝经后阴道流血( PMB)并发子宫内膜癌进行病理学研究,探讨其临床特征。方法:回顾性分析我站和靖煤集团总院2012年5月~2014年6月317例PMB患者的临床资料,根据刮宫及(或)
新课程改革的背景下,初中数学教学注重培养学生的探究、归纳、总结能力,对学生自主学习的能力要求要高一些.所谓归纳推理是指在数学教学中,对于一些知识内容由特殊到一般的一
期刊
随着社会的发展和科技的进步,数学被广泛地应用到各个学科领域,这就给科技编辑特别是非数学专业的编辑带来了麻烦,使他们对数学书稿的编辑加工产生畏惧心理,不愿接触此类书稿
一直以来人们对思政课都不重视,有的人认为,思政课可有可无;有的人认为这是小科,随便学学就可以了,反正最后是开卷考试;有的思政课教师甚至也自甘边缘化;有的时候我自己也开
期刊
该文主要讨论了电路图的计算机识别和计算机辅助设计(CAA)系统,研究了电路图纸 从自动录入到计算机辅助设计的接口问题,针对有一定约束的电路图纸,实现了整个图纸从输入到用
在分析纵向探测井长度L、井条件下的几何因子、围岩影响的基础上,引出了归一化的井条件下的几何因子。该几何因子进一步揭示了测井方法之间的一致性,并将测井曲线形状的研究与
高中生进行数学解题时,常常由于无法找到解题突破口,给学生学习造成一定影响.教师基于学情引导学生掌握等价转化解题思想,为学生数学解题提供新的路径.由于高中数学解题教学
期刊
随着新课改的落实,素质教育与创新能力培养,是当前普遍关注的话题.面对初中语文教学的现状,如何将素质教育落到实处,真正提升学生的创新能力,是每一位从教人员需要深入思考的
期刊
近几年,我社生活图书取得了不菲的业绩,保持了良好的增长势头,尤其是美食图书、家居休闲图书、服饰美容图书一直保持在市场同类书的前三名。我社正以资源、产品、品牌优势成