论文部分内容阅读
随着Web2.0的兴起,互联网发展越发迅速,人们可以在互联网中更加便捷与快速地获取信息。但是随着互联网中信息爆炸式的增长,人们不得不面对海量的信息,如何从大量非结构化文本中提取出人们真正需要的信息成为亟待解决的问题,信息抽取技术应运而生。事件抽取是信息抽取中一个重要的研究方向,有助于帮助用户从文本中检测出所需要的事件,提取事件所涉及的人物、地点、时间等事件元素,并将提取出的信息以结构化形式保存下来。这些信息无论是供用户直接查看,还是供机器翻译、文本检索、自动文本摘要、趋势分析等多种领域使用,都具有重要意义。本文研究中文事件抽取技术,主要包括时间表达式识别、事件检测与分类和事件论元角色抽取等三个部分。论文的主要研究成果如下:(1)研究了时间表达式识别,提出一种基于词典特征优化和依存关系的中文时间表达式识别方法。首先,优化了传统时间词典特征,将时间词典分为时间词词典和时间单位词典,缓解了中文文本时间表达式长距离依赖的问题;其次,在优化后词典特征的基础上提取依存特征,挖掘时间表达式的结构信息;最后,综合时间表达式的基本特征、词典特征和依存特征,利用条件随机场模型实现时间表达式识别。在ACE2005中文语料和TempEval-2任务中文语料上进行实验,该方法相对于传统基于基本特征与词典特征的机器学习方法,提高了准确率和召回率。(2)研究了事件检测与分类,提出了一种基于依存句法分析与分类器融合的事件触发词抽取方法。该方法通过综合利用事件元素信息和依存句法分析信息,抽取触发词-实体描述对,提高触发词抽取的召回率;然后,将触发词-实体描述对抽取结果与单一触发词抽取结果相融合,以避免召回率提高所带来的准确率下降问题。在ACE2005中文语料上进行实验,该方法在事件检测与分类任务中,相对于传统单一触发词抽取方法,提高了准确率和召回率。(3)研究了事件论元角色抽取,针对传统基于机器学习的方法通常将句法分析信息转化为平面特征,并不能全面利用句法分析信息的问题,提出了一种基于卷积树核的事件论元角色抽取方法。首先,构造基本树结构,将句法分析信息转化为结构特征;其次,针对句法结构树包含较多冗余信息的问题,设计相应裁剪算法,优化树结构,减少卷积树核计算的时间复杂度;最后,构造复合核将平面特征与结构特征相结合,并训练支持向量机分类器完成事件论元角色抽取。在ACE2005中文语料上进行实验,该方法相对于传统的机器学习方法,提高了事件论元角色抽取性能。