论文部分内容阅读
事件抽取是信息抽取领域中最重要的研究内容之一。事件表示的多样性导致事件抽取一直是一项很具挑战性的任务。事件是指在特定时间、地域范围内,由一到多个参与者参与,发生的一个或一组动作变化的集合,事件短语则是表示事件的载体。主流的事件抽取方法主要分两类,一是基于监督机器学习的方法,依赖大量人工标注数据,人力成本高且可移植性差;二是基于半监督学习的自举方法,抽取效果高度依赖于初始种子的质量和对迭代过程的条件约束。本文研究致力于缓解第二类方法中的条件约束,利用Huang和Riloff[1]自举方法获得的事件短语作为初始种子,结合单语和双语跨语言的线索,针对如何利用语义对等映射的思想学习事件短语展开了深入研究,主要包含以下三个方面:(1)基于词嵌入相似语义映射的事件短语学习首先,利用分布语义表示将语义相似的单词进行聚类。其次,采用相似语义的单词映射原事件短语中的部分单词重组成新短语。最后,利用大规模英文语料对新短语进行语言学检验,过滤掉不符合语言学习惯的短语。实验结果证明,该方法有效地学习出全新的事件短语,提升了事件识别任务的效果。(2)基于paraphrase双语语义映射的事件短语学习首先,通过机器翻译技术实现单词和短语在双语之间的翻译映射,获得候选paraphrase。其次,结合n-gram模型和语言学特征标注语料对候选paraphrase进行评分。最后利用paraphrase进行语义对等映射扩展事件短语。实验结果证明,该方法实现了事件短语的语义扩展和一定程度上的短语结构扩展,具有较好的性能。(3)基于双语语义结构映射的事件短语学习受到前面工作的启发,我们采用双语之间的结构差异作为线索,探索利用跨语言信息实现事件短语的学习和短语结构的泛化。首先,利用机器翻译技术获取中英平行语料的词对齐信息。其次,结合依存句法分析抽取出事件短语的结构信息。然后,利用短语的结构信息和词对齐实现事件短语在双语上的语义结构映射。最后,将双语语义结构映射方法拓展成自动迭代的学习系统,不断地抽取新的事件短语。实验结果证明,双语语义结构映射方法不仅抽取了新的事件,还泛化了事件短语结构,克服了必须依赖严格句法约束才能抽取事件的局限性。