论文部分内容阅读
提出了一种基于柬汉双语词对齐语料构建柬埔寨语依存树库的方法。首先构建柬汉词对齐语料库,在该过程中不仅使用GIZA++模型进行词对齐,还利用词典模糊匹配和词向量相似性比较的方法进行双语词对齐语料库的构建;其次根据哈工大LTP平台构建中文依存树库;最后结合柬汉词对齐语料库和中文依存树库通过映射的方式构建柬语依存树库,再经过人工调整得到最终的柬语依存树库。实验表明,该方法简化了人工标注柬埔寨语句子依存关系的过程,减少了昂贵的人工标注工作,有效地提高了依存树库的构建效率。