论文部分内容阅读
问答系统是一个快速发展的研究领域,其融合了信息检索、信息抽取以及自然语言处理的研究和技术,充满挑战但又前景诱人,问答系统中的技术和方法也刺激了如文档抽取、时间和命名实体表达式识别等领域的发展。互联网的快速发展提供了一个海量的文本信息来源,问答系统也利用互联网大规模文本中显式出现的知识解决了一部分问题,但是更多的知识隐含在文本中,需要进一步推理才能获得。然而现阶段大部分文本信息都是无标注的自由文本,如何进行推理获得隐含知识面临巨大挑战;另外互联网中文本信息不具有完备性,并且存在大量的噪音和事实错误,因此传统的推理方法并不能适用于互联网语料。本文提出了一个为深层问答系统发现逻辑知识以及利用抽取到的知识进行问答的方法。该方法使用自动无监督、与领域无关的方法在背景语料中提取知识,然后利用这些知识推理出问题的潜在答案。本文的主要工作如下:(1)借助语义角色标注的结果将自然语言的表达转换为一阶谓词逻辑的谓词表达形式,语义角色标注可以更准确地标注谓词和论元,并且可以标注多个论元,其带有的顺序信息为谓词关系消除歧义提供了依据,提高了关系抽取算法的准确性和适用性;(2)使用关联分析和统计相关性原理挖掘这些谓词表达式之间的潜在关联并建立用于推理的带有权重逻辑命题,自动生成推理规则节约了人力,成功创建了大规模的具有通用性的知识库:(3)使用Markov逻辑网用作问题答案的推理系统,概率与逻辑推理的结合克服了抽取的知识带有噪音、不确定和不完备的缺点,实验表明这些自动发现的命题可以显著改善问答系统的表现。