汉越双语语料库建设及事件图抽取方法研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:xmjxex
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
新闻中的事件抽取是信息抽取的重要研究任务之一,其主要目标是抽取出文本中蕴含的事件。尤其是越南语新闻的信息抽取,对处理好与越南的国际关系对区域经济发展、政治稳定有重要作用。一般来说,一篇新闻是由新闻文本中的多个事件组成的。在人们从新闻获取信息的过程中,人们除了获取新闻描述的多个子事件之外,还需要获取到这些事件之间的关联关系。这些关联关系同样是新闻的重要信息。因此,如何借助事件抽取来获得事件及事件间的关联关系显得至关重要。本文针对汉越双语新闻事件抽取这一问题,围绕汉越双语新闻语料构建、汉越事件抽取、汉越双语事件图构建等问题展开深入研究,完成了以下特色研究工作:(1)构建了汉越双语新闻语料库。针对汉越新闻分析及事件抽取的需求,定义了语料标注的内容,包括事件描述,事件要素,事件时间关系、事件共指关系及跨语言事件对齐关系等要素。收集了 508篇汉越双语新闻,采用XML语言进行了语料标注。为接下来的汉越双语事件抽取及汉越双语事件图构建提供重要支撑。(2)实现了基于机器学习和规则相结合的事件抽取方法。首先,选择词和词性、上下文的词及词性、语义特征等特征,并将汉语事件识别结果作为指导特征融入越南语事件识别中,采用支持向量机训练事件识别模型,识别事件触发词。然后,根据汉语及越南语的语法句法规律,定义不同语法结构的事件元素抽取规则,根据规则匹配抽取事件元素。最后,定义事件元素类型消解规则,通过规则匹配实现事件元素类型消解。对不符合事件元素类型消解规则的事件元素,通过与事件类型的词义集进行相似度计算来实现事件元素类型消解。实验结果表明提出的方法成功的提高了越南语事件抽取的效果。(3)提出了基于事件及事件间关联关系的双语事件图构建方法。首先,利用支持向量机模型抽取事件之间的共指关系及时间关系。然后,以事件为节点,以事件间的关联关系作为边,构建融合事件共指关系及时间关系的汉越双语事件图。最后,借鉴PageRank算法思想求解有向图中节点的权重,实现对汉越双语事件排序。实现双语事件图构建表征汉越新闻。(4)利用上述研究成果,设计了汉越双语新闻事件图抽取原型系统。实现汉越双语事件图抽取。
其他文献
本文系统分析了苏州市地方海事局水上交通应急资源的现状,以及对紧急事件的响应情况,指出应急能力提升面临的问题,并提出相应的策略,从硬件和软件两个层面综合提升苏州市地方
编者按:陈惠的成功告诉我们,从奋斗到成功得有个过程,你得拓宽思路,思路往往决定着出路;你得勇于迈出第一步,才能一步步接近目标;你得不怕起点低,认真做好每件事、抓住每个机
期刊
公司创立不到一年,实际运营不到五个月,却成为了中国电信和IBM的合供商,当年营收预计突破400万元上海基诺广告有限公司不仅仅是在为客户创造美丽世界,也实实在在地创造着一个属于
谷建芬是我国当代著名女作曲家,创作近千首音乐作品。其中,《年轻的朋友来相会》《烛光里的妈妈》《歌声与微笑》等曲目至今仍然经久不衰,并为中国乐坛培养出毛阿敏、那英、
6月29日下午,上海复旦皇冠假日酒店里宾客云集,上海市青年创业专家导师团成立仪式暨“引领未来的启示”上海优秀青年企业家创新创业讲座在这里隆重举行。
主桥钢箱梁采用拖拉滑移法施工,同时开展多个工作面,节省了各工序间隔时间;施工过程安全可控,钢箱梁轴线偏差可控,整体线形满足设计要求。结合太原摄乐大桥施工实例,介绍了拼
Slope stability assessment is an essential aspect of mining and civil engineering<span style="font-family:;" "=""><span style="font-family:Verdana;">. In this s
目的通过分析血红蛋白纽约(Hb New York)患者血红蛋白的电泳与血常规指标,为临床筛查相关血红蛋白病提供参考依据。方法回顾分析2014年3月至2018年12月广东地区送往广州金域
良好的沟通管理,不仅反映了组织中管理人员的管理和协调能力,更体现了完善的企业制度和健康的企业文化。
目的探讨注射用骨肽联合利塞膦酸钠治疗腰椎骨折患者手术后骨组织修复的临床疗效。方法选择86例行腰椎手术的患者,并随机分为观察组和对照组,各43例。对照组患者给予利塞膦酸