融合泰语特征的句子级实体关系抽取研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:qiaotongqiao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
泰语句子的实体关系抽取研究是泰语自然语言处理的重要内容,其性能对事件抽取、知识库构建和搜索引擎等上层应用研究有着直接影响。然而泰语构词复杂,语气词使用频繁,不习惯书写标点符号造成泰语句子边界模糊等语言特点都增加了泰语信息智能处理的难度。本文结合泰语语言特征和统计机器学习模型,针对泰语句子切分、泰语句子命名实体识别和泰语句子从属实体关系抽取进行了研究探讨。取得了如下三个方面的研究成果。(1)在泰语文本信息中,通常书写的泰语句子之间仅以简单的空格符在句子末尾作为句子分界符,并且泰语中也存在大量的非句末空格符,所以使得泰语句子边界模糊。本文首先分析归纳了一些与泰语句子边界相关的实用语法规则,然后使用统计机器学习中的最大熵分类算法,将关于泰语句子切分的任务转换为对泰语文本中空格符的分类问题。结合泰语文本中空格符的上下文特征来训练最大熵分类模型,从而对泰语信息中的空格符进行类别分类。最后在使用构建的相关语法规则库来对最大熵分类模型的空格符分类结果进行校正。本文的方法相对于只使用泰语语法规则的方法,简化了大量复杂泰语语法知识的规则构建工作,仅针对与泰语句子边界识别相关的主要知识构建了语法规则,并且通过最大熵分类模型更好的利用了在泰语输入语块或段落文本中空格符的上下文特征,从而在泰语句子切分任务中获得了较好的效果,并且性能稳定,为泰语句子的命名实体识别任务奠定了基础。(2)将泰语句子命名实体识别任务转化为对泰语句子中的词汇序列进行标记的任务。本文利用泰语句子中词汇的上下文语言特征,分别使用隐马尔科夫模型和条件随机场模型在泰语实体识别训练语料上进行了模型构建,并且分别使用所构建的序列标注模型在泰语测试语料上进行了实验验证。最终的实验结果也验证了本文使用序列标注方法在泰语命名实体识别任务中的有效性,并且为泰语句子的实体关系抽取研究奠定了基础。(3)在泰语句子命名实体识别的基础上,将泰语句子从属实体关系抽取任务转化为对泰语句子中的实体关系三元组的分类问题。本文首先在缺少泰语从属实体关系语料的情况下,利用句子对齐的汉泰平行句对和汉泰词典构建泰语实体关系语料库。然后使用泰语实体词汇周围的上下文特征训练最大熵分类模型,对泰语句子中候选实体关系三元组的从属实体关系类型进行识别,从而实现泰语句子中的从属实体关系抽取。最后通过实验验证了本文方法在针对泰语句子中从属实体关系进行抽取时的有效性。
其他文献
石田彻也短暂的一生经历了社会的飞速发展和随之而来的泡沫经济崩盘。这段经历是其艺术作品超现实风格与病态社会主题及人本主义思想形成的根源。画家由社会现实发散思维,结
随着石油、化工、冶金及城市燃气工业的发展,作为储存容器的球罐,得到了广泛的应用和迅速的发展。目前,球罐制造技术正向着容积大型化、结构多样化、高参数方向发展,这势必要求球
今年的设计周以"设计力赋能未来之城"为主题,相比去年,国际化水平、专业化交流、大众参与性更加突出,市场化程度更高。希望通过河北国际工业设计周的举办,进一步加强交流合作
于2016—2017年在黄土高原半干旱区,利用新型开顶式气室(OTC),开展CO 2 浓度升高与大气增温对马铃薯产量及品质的影响试验,研究CO 2 浓度增加和温度升高对马铃薯发育过程、产
12月14日,雄安新区首届冰雪运动会在雄县雄州镇黄湾村体育公园举行,雄安新区三县中小学生及冰雪爱好者近300人参加了运动会。大会设青少年组和社会组两个组别,设滑轮、轮滑和
对垃圾中易堆腐物进行生物降解,生产优质有机复合肥。对垃圾降解过程中微生物的作用进行了初步研究,对生物降解的关键因素进行了比较观察,为提高垃圾中易堆腐物生物降妥的质量和
2017年12月7日,雄安新区设立后的首个大型城建工程——雄安市民服务中心正式开工建设。中国中建设计集团有限公司联合崔愷、孟建民两位院士和周恺、庄惟敏两位大师组成的联合