论文部分内容阅读
针对政府文献的汉语维吾尔语语料库特点,充分利用汉语和维吾尔语的句子特性,提出一种汉维句子级别的对齐方法。该方法重点分析政府领域的汉语和维吾尔语的句型,分别对汉语和维吾尔语的语料进行边界识别,避免了复杂句型对汉语-维吾尔语句子对齐的影响,使得该方法取得句子对齐达到97%与99%之间的正确率。对齐的汉语-维吾尔语句子对可以充实语料库的规模,为汉语-维吾尔语短语对齐以及汉维机器翻译提供翻译语料。