论文部分内容阅读
泰语句子的实体关系抽取研究是泰语自然语言处理的重要内容,其性能对事件抽取、知识库构建和搜索引擎等上层应用研究有着直接影响。然而泰语构词复杂,语气词使用频繁,不习惯书写标点符号造成泰语句子边界模糊等语言特点都增加了泰语信息智能处理的难度。本文结合泰语语言特征和统计机器学习模型,针对泰语句子切分、泰语句子命名实体识别和泰语句子从属实体关系抽取进行了研究探讨。取得了如下三个方面的研究成果。(1)在泰语文本信息中,通常书写的泰语句子之间仅以简单的空格符在句子末尾作为句子分界符,并且泰语中也存在大量的非句末空格符,所以使得泰语句子边界模糊。本文首先分析归纳了一些与泰语句子边界相关的实用语法规则,然后使用统计机器学习中的最大熵分类算法,将关于泰语句子切分的任务转换为对泰语文本中空格符的分类问题。结合泰语文本中空格符的上下文特征来训练最大熵分类模型,从而对泰语信息中的空格符进行类别分类。最后在使用构建的相关语法规则库来对最大熵分类模型的空格符分类结果进行校正。本文的方法相对于只使用泰语语法规则的方法,简化了大量复杂泰语语法知识的规则构建工作,仅针对与泰语句子边界识别相关的主要知识构建了语法规则,并且通过最大熵分类模型更好的利用了在泰语输入语块或段落文本中空格符的上下文特征,从而在泰语句子切分任务中获得了较好的效果,并且性能稳定,为泰语句子的命名实体识别任务奠定了基础。(2)将泰语句子命名实体识别任务转化为对泰语句子中的词汇序列进行标记的任务。本文利用泰语句子中词汇的上下文语言特征,分别使用隐马尔科夫模型和条件随机场模型在泰语实体识别训练语料上进行了模型构建,并且分别使用所构建的序列标注模型在泰语测试语料上进行了实验验证。最终的实验结果也验证了本文使用序列标注方法在泰语命名实体识别任务中的有效性,并且为泰语句子的实体关系抽取研究奠定了基础。(3)在泰语句子命名实体识别的基础上,将泰语句子从属实体关系抽取任务转化为对泰语句子中的实体关系三元组的分类问题。本文首先在缺少泰语从属实体关系语料的情况下,利用句子对齐的汉泰平行句对和汉泰词典构建泰语实体关系语料库。然后使用泰语实体词汇周围的上下文特征训练最大熵分类模型,对泰语句子中候选实体关系三元组的从属实体关系类型进行识别,从而实现泰语句子中的从属实体关系抽取。最后通过实验验证了本文方法在针对泰语句子中从属实体关系进行抽取时的有效性。