融合泰语特征的句子级实体关系抽取研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户：qiaotongqiao

【摘要】

：

泰语句子的实体关系抽取研究是泰语自然语言处理的重要内容,其性能对事件抽取、知识库构建和搜索引擎等上层应用研究有着直接影响。然而泰语构词复杂,语气词使用频繁,不习惯

【作者】

：

沈强

【出处】

：

昆明理工大学

【发表日期】

：

2017年01期

【关键词】

：

泰语句子切分命名实体识别实体关系抽取

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

泰语句子的实体关系抽取研究是泰语自然语言处理的重要内容,其性能对事件抽取、知识库构建和搜索引擎等上层应用研究有着直接影响。然而泰语构词复杂,语气词使用频繁,不习惯书写标点符号造成泰语句子边界模糊等语言特点都增加了泰语信息智能处理的难度。本文结合泰语语言特征和统计机器学习模型,针对泰语句子切分、泰语句子命名实体识别和泰语句子从属实体关系抽取进行了研究探讨。取得了如下三个方面的研究成果。(1)在泰语文本信息中,通常书写的泰语句子之间仅以简单的空格符在句子末尾作为句子分界符,并且泰语中也存在大量的非句末空格符,所以使得泰语句子边界模糊。本文首先分析归纳了一些与泰语句子边界相关的实用语法规则,然后使用统计机器学习中的最大熵分类算法,将关于泰语句子切分的任务转换为对泰语文本中空格符的分类问题。结合泰语文本中空格符的上下文特征来训练最大熵分类模型,从而对泰语信息中的空格符进行类别分类。最后在使用构建的相关语法规则库来对最大熵分类模型的空格符分类结果进行校正。本文的方法相对于只使用泰语语法规则的方法,简化了大量复杂泰语语法知识的规则构建工作,仅针对与泰语句子边界识别相关的主要知识构建了语法规则,并且通过最大熵分类模型更好的利用了在泰语输入语块或段落文本中空格符的上下文特征,从而在泰语句子切分任务中获得了较好的效果,并且性能稳定,为泰语句子的命名实体识别任务奠定了基础。(2)将泰语句子命名实体识别任务转化为对泰语句子中的词汇序列进行标记的任务。本文利用泰语句子中词汇的上下文语言特征,分别使用隐马尔科夫模型和条件随机场模型在泰语实体识别训练语料上进行了模型构建,并且分别使用所构建的序列标注模型在泰语测试语料上进行了实验验证。最终的实验结果也验证了本文使用序列标注方法在泰语命名实体识别任务中的有效性,并且为泰语句子的实体关系抽取研究奠定了基础。(3)在泰语句子命名实体识别的基础上,将泰语句子从属实体关系抽取任务转化为对泰语句子中的实体关系三元组的分类问题。本文首先在缺少泰语从属实体关系语料的情况下,利用句子对齐的汉泰平行句对和汉泰词典构建泰语实体关系语料库。然后使用泰语实体词汇周围的上下文特征训练最大熵分类模型,对泰语句子中候选实体关系三元组的从属实体关系类型进行识别,从而实现泰语句子中的从属实体关系抽取。最后通过实验验证了本文方法在针对泰语句子中从属实体关系进行抽取时的有效性。

其他文献

盐酸苯海索片溶出度测定方法的研究

期刊

盐酸苯海索片溶出度测定

论时代背景对石田彻也艺术风格的影响

石田彻也短暂的一生经历了社会的飞速发展和随之而来的泡沫经济崩盘。这段经历是其艺术作品超现实风格与病态社会主题及人本主义思想形成的根源。画家由社会现实发散思维,结

期刊

超现实机器物化人本主义

“江阴现象”对广西经济发展的启示

期刊

“江阴现象”广西经济发展江阴市县域经济乡镇企业民族工业工业经济发展模式外资利用

大瓣片高强钢球罐壳板成形机理及本构关系研究

随着石油、化工、冶金及城市燃气工业的发展，作为储存容器的球罐，得到了广泛的应用和迅速的发展。目前，球罐制造技术正向着容积大型化、结构多样化、高参数方向发展，这势必要求球

学位

高强钢球罐塑性变形回弹规律应力测试增量本构关系

设计力赋能未来之城

今年的设计周以"设计力赋能未来之城"为主题,相比去年,国际化水平、专业化交流、大众参与性更加突出,市场化程度更高。希望通过河北国际工业设计周的举办,进一步加强交流合作

期刊

国际化水平市场化程度雄安新区设计创新设计品牌专业化加强交流设计理念

SEP—PAK净化／导数紫外分光光度法测定维生素E蜂王浆口服液中的维生素E

期刊

蜂王浆维生素E分光光度法紫外

CO2浓度升高与增温对马铃薯产量及品质的复合影响

于2016—2017年在黄土高原半干旱区,利用新型开顶式气室(OTC),开展CO 2 浓度升高与大气增温对马铃薯产量及品质的影响试验,研究CO 2 浓度增加和温度升高对马铃薯发育过程、产

期刊

马铃薯产量品质气候变化CO2浓度升高大气增温协同影响

雄安新区首届冰雪运动会举行

12月14日,雄安新区首届冰雪运动会在雄县雄州镇黄湾村体育公园举行,雄安新区三县中小学生及冰雪爱好者近300人参加了运动会。大会设青少年组和社会组两个组别,设滑轮、轮滑和

期刊

冰雪运动运动竞技水平运动会雄安新区体育公园冰壶轮滑中小学生

城市生活垃圾中易堆腐物的生物降解初步研究

对垃圾中易堆腐物进行生物降解，生产优质有机复合肥。对垃圾降解过程中微生物的作用进行了初步研究，对生物降解的关键因素进行了比较观察，为提高垃圾中易堆腐物生物降妥的质量和

期刊

生活垃圾易堆腐物生物降解城市垃圾处理Domestic wastePerishablesBiological degradation

匠心“鲁班” 质量雄安——记鲁班奖工程雄安市民服务中心

2017年12月7日,雄安新区设立后的首个大型城建工程——雄安市民服务中心正式开工建设。中国中建设计集团有限公司联合崔愷、孟建民两位院士和周恺、庄惟敏两位大师组成的联合

期刊

雄安设计图纸服务中心城建工程多线程设计团队立体化

融合泰语特征的句子级实体关系抽取研究

与本文相关的学术论文