基于柬汉双语词对齐语料构建柬埔寨语依存树库

来源 :山西大学学报(自然科学版) | 被引量 : 0次 | 上传用户:sin123654
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
提出了一种基于柬汉双语词对齐语料构建柬埔寨语依存树库的方法。首先构建柬汉词对齐语料库,在该过程中不仅使用GIZA++模型进行词对齐,还利用词典模糊匹配和词向量相似性比较的方法进行双语词对齐语料库的构建;其次根据哈工大LTP平台构建中文依存树库;最后结合柬汉词对齐语料库和中文依存树库通过映射的方式构建柬语依存树库,再经过人工调整得到最终的柬语依存树库。实验表明,该方法简化了人工标注柬埔寨语句子依存关系的过程,减少了昂贵的人工标注工作,有效地提高了依存树库的构建效率。
其他文献
在采油工程中,套管损坏经常发生在泥岩层和其他岩层的交界面处.在注水条件下,泥岩蠕变引起层间滑移是套管损坏的主要原因.因而研究泥岩的变形机理和建立泥岩本构方程是大庆油
通信领域的应用程序运行时,往往会产生数目可观的就绪进程和延迟进程.如何合理组织这些进程并采用高效的调度算法是保障通信领域嵌入系统实时性和可靠性的关键.文章给出了一种更
提出了一种基于服务质量保证(QoS,quality of service)的分等级的非线性计费策略,不仅用数学的方法证明了该计费策略在用户收益和运营商收益方面都优于通常采用的线性计费策