论文部分内容阅读
"汉英-泰互译有声语料库"的开发,在泰文舆情分析领域,解决了词典分词算法中训练语料缺乏的问题.本文采用计算机化信息处理技术,对大量的收集来的泰文语料进行整理、规范、加工与存储,统计出泰文词汇8000多个.然后利用词典翻译和人工校对其进行语料对齐.最后,结合泰文语言语法特征以及句法的语义特点,分类归纳和规范标注泰语语料,构建了5万条左右的的汉英-泰语料数据库.