论文部分内容阅读
问答系统以精确答案直接满足用户以自然语言方式表达的信息需求,日益得到重视。尽管近年来发展迅速,但当前的问答系统仍然主要处理描述简单的事实型问题,而用户在实际生活中往往会提出具有一定的约束,包含多个事实的复杂问题,传统的问题理解方法无法有效分析这类问题,导致答案抽取质量较低。因此,对复杂问题的理解是自动问答继续发展过程中需要解决的难点。本文专注于包含多个事实的复杂事实型问题,试图对原问题按照一定策略拆分为若干个子问题,通过依次解决子问题,最终得到原始问题的答案。目前对该方向的研究刚刚起步,问题的定义和解决方案均不够成熟,很少有工作系统地处理这一问题。本文针对复杂事实型问题的拆分,主要在以下3个方面进行研究:1.从语言现象上深入理解问题子问题的性质、特点和相互依赖关系,从真实数据出发,进行了复杂事实型问题拆分的语料库构建,明确了子问题标注体系及标注方法。2.针对如何进行问句拆分的问题,根据子问题体现的语言学特点,提出了基于依存句法规则的子问题候选获取方法,总结和概括了一系列依存句法规则抽取子问题候选,力图覆盖问题中主要事实,并建立子问题之间的依赖关系。3.针对问题拆分候选较多的问题,提出了基于句子流畅度和句法模板的子问题验证方法。利用基于Web的NGram获取方法衡量子问题的流畅程度,通过从大量人工标注的子问题实例中统计归纳句法模板,对子问题候选进行排序,获取高质量的子问题候选。总之,本文针对问题分解这一课题,主要从概念和语言的角度进行了初步探索,所得到初步观察与结果未来可应用于复杂事实型问题的答案抽取。