论文部分内容阅读
随着自然语言处理技术的不断发展,为提高信息处理系统的性能,一个迫切的需求就是能够准确地进行专有名词识别。特别在中文信息处理中,由于文本中的人名、地名等一些未登录词常被切分成单个字,大大影响了文本分析和处理的效果。由于专有名词的数量非常庞大,无法在词典中一一收录。而且,随着时间和领域的变化,总是不断地有新的专名出现,又有旧的专名被淘汰。因此,专有名词识别是自然语言处理系统中的一个难题。有效的专名识别系统能显著提高信息抽取、信息检索等信息处理系统的性能。在专名识别的基础上,再进行有效的专名翻译,则十分有利于跨语言信息处理系统的性能提高。
本文设计并构建了一个系统,实现汉语专名的自动识别及英汉专名的相互音译,并对专名识别与专名音译中的一些关键技术进行具体介绍。
1.在专名识别的算法方面,本文采用了最大熵统计模型作为框架。因为最大熵模型能有效整合多种约束信息,对于汉语专名识别问题也有很好的适用性。在最大熵模型的框架上,本文引入少量人工规则以弥补统计模型的固有不足,提高处理性能。文章详细介绍了用于汉语专名识别的基于最大熵模型的混合算法,及其主要实现流程。
2.在上下文特征的选择方面,本文考虑了局部特征与全局特征两大类特征。其中,局部特征信息包含候选词的内部构词信息与外部接续信息两类。全局特征信息包含专名在文档中的重现频度,本文将其整合进动态词表。
3.在专名音译方面,本文采用了基于源语言待译专名与目标语言候选专名之间发音相似度的方法,通过发音序列的比较,从候选专名库中选择发音相似度值最高的专名作为待译英文专名或中文专名的对应音译结果,是一种简洁而有效的音译方法。