论文部分内容阅读
目前,互联网上的数据呈爆炸式增长态势,海量的数据对数据存储和信息获取带来了前所未有的挑战。语义网被认为是下一代互联网的存储方式。以语义网形式描述的数据不仅可以被人们理解,而且可以被计算机所理解。数据在语义网中是互相链接的,彼此之间被语义标签链接起来,形成一个巨大的语义网络。现在,越来越多的数据以语义网的形式发布出来,但是对于普通用户而言,从语义网中获取信息的难度远超过目前的搜索引擎。语义网目前仅支持形式化查询,而且只有对语义网本体熟悉的专业人员才能够编写正确的形式化查询。对于普通用户而言,自然语言形式的查询是最便捷、最易接受的查询方式。自然语言查询接口作为一个连接自然语言查询和语义网形式化查询之间的桥梁,具有重要的研究价值和实用价值。如何有效的将用户的自然查询问句转化为能够查询语义网的形式化查询语言是本文的主要研究内容。本文针对这一问题研究了英文和中文两种语言上的自然语言查询接口任务。本文主要贡献如下:首先,在对查询的形式进行充分分析之后,发现问题的形式具有链式规则,即查询中匹配的资源只与其前后资源存在联系,因此,本文根据这一假设,提出了一种基于资源补全搜索的自然语言查询接口方法。该方法在形式固定、语法简单的问题上取得了较好的实验结果。其次,在对资源补全搜索方法的实验结果分析之后,我们发现资源补全搜索算法不能处理语法复杂的问题,且没有考虑查询中的语义信息。因此,我们提出了一种基于依存图的自然语言查询接口算法,旨在充分利用查询中的语义信息来指导形式化查询的生成。该方法的性能在美国地理数据集上较资源补全搜索方法有较大的提升。为了测试基于依存图的自然语言查询接口算法对不同语言环境的适应能力,我们在中文数据集上又进行了实验。分析结果得出,基于依存图的算法在英文上的效果要优于中文上的效果。实验表明,基于依存图的方法在自然语言查询到语义网形式化查询的转换的任务上取得了很好的效果,同时,证明了自然语言查询接口能够有效的完成搜索语义网信息的任务。