论文部分内容阅读
目前,大多数维吾尔族群众存在严重的跨语言交流障碍,随着丝绸之路经济带核心区建设的推进,研究维吾尔语文翻译信息化是促进各民族间交流交往交融的必要保障。现有的汉维机器翻译系统对于特定领域不适用,因此本文围绕人物简历信息,研究了汉语-维吾尔语机器翻译以及影响翻译质量的关键问题。简历信息主要包含命名实体,而命名实体是机器翻译常见的未登录词问题,易造成翻译质量不佳。为了获取汉维命名实体等价对,首先需要开展维吾尔文命名实体识别研究,而现有的研究主要集中在单一实体并且方法相对传统,本文开展了不同方法实现维吾尔文命名实体识别研究;然后在此基础上获取汉维命名实体翻译等价对以实现基于模板的汉维机器翻译系统。首先,为了有效利用未标注语料库中的无监督语义和结构特征,本文以条件随机场为基本框架,提出了一种基于半监督学习的维吾尔文命名实体识别方法,通过引入词法特征、词典特征、以及无督学习特征,对比不同特征对命名实体识别的影响,并对模型进行优化。实验表明,CRF模型融合多种特征时维吾尔文命名实体识别的F值达到87.43%,说明词法特征和无监督学习特征的有机结合,可以大大减少人工选取特征的工作量,同时也可提高维吾尔文命名实体识别的性能。其次,传统的方法未考虑到从字符间充分学习维吾尔语的形态信息,因此本文提出了基于注意力向量表示的维吾尔文命名实体识别方法。首先,在词向量的基础上引入使用双向LSTM获取的字符级向量;然后使用注意力机制将词向量和字符级向量进行结合来动态学习文本的特征信息;将基于注意力机制的向量作为Bi-LSTM的输入向量;最后通过CRF模型标注命名实体。实验表明,对于形态丰富的维吾尔语来说,基于注意力向量表示的Bi-LSTM-CRF模型相比于CRF模型在命名实体识别任务上性能更佳。最后,围绕人物简历信息,分析汉语的人物简历的句子结构,构建了汉维双语命名实体翻译等价对库和汉维人物简历信息的模板库,设计并实现了基于词典与模板相结合的人物简历汉维机器翻译系统。实验表明,该系统相比于依赖于大规模双语语料的机器翻译系统具有较好的实际应用价值。