论文部分内容阅读
维基百科,作为最著名的Web 2.0应用之一,在大批志愿者的协作编辑下,逐渐成为世界上最大的免费在线百科全书。维基百科中的内容和文章组织方式使其成为一个方便的在线知识门户网站,这也是使其取得巨大成功的关键因素。维基百科里,几乎每篇文章都是对一个实体的详尽描述,含有丰富的文本信息。此外,文章中也含有丰富的结构化信息,如类别系统和信息盒数据。最近有越来越多的工作从维基百科中抽取出这些结构化信息并表示成语义数据。然而现有搜索引擎并没有充分利用维基百科中丰富的结构化和语义数据,因此极大限制了用户对于该大规模知识库的利用。随着维基百科的快速发展,其中的文本信息和语义信息也越来越多。因而,如何更好、更快并且更智能化的访问这些信息成为一个重要问题。这就需要一个同时基于文本信息及语义信息的有效的搜索服务。语义搜索正是用来解决这一问题的关键技术。因此,本课题研究将语义搜索技术应用于维基百科,搭建维基百科上的语义搜索系统,从而让用户拥有更强大的搜索能力,得以更充分的利用该大规模知识库。在维基百科上搭建语义搜索系统有三大难点:如何更充分的挖掘维基百科中的语义数据,构建大规模知识库;如何提供尽可能强大的混合查询能力,支持对文本信息和语义信息的混合查询,并保证其高效性;如何对用户提供友好的搜索界面,使其在支持强大的混合查询能力的同时,仍然保持易用的特点。考虑到现有基于维基百科信息盒及文本抽取语义数据的方法具有较低的文章覆盖率,本文进一步挖掘维基百科分类系统中所隐含的知识,提出了基于维基百科父子类别对的自动抽取三元组数据的方法。基于维基百科的大量语义数据和丰富文本信息,本文提出了一个扩展信息检索引擎的索引结构和功能来提供高效混合查询的新方法。首先我们定义了一种树型混合查询,同时具有结构化查询和关键字查询的能力。然后我们扩展信息检索引擎中广泛使用的倒排索引技术来支持对关系的索引,将混合查询的处理算法分解为倒排索引上的基本操作,并实现考虑关系的排序机制。利用这个方法可以对海量的语义数据及文本信息进行索引,并且可以高效的处理用户的混合查询。为设计友好的搜索界面,本文扩展了广泛使用于结构化数据的多视角浏览及搜索界面,让用户从熟悉的关键字搜索入手,在返回搜索结果的同时自动对当前结果所属的类别及所涉及的关系给出提示,引导用户迭代该过程并完成复杂的混合查询。实验表明,本文基于维基百科类别自动抽取语义数据的方法在文章覆盖率上超越了以前的工作,同时进一步扩充了三元组数据。本文实现的语义搜索系统在保证高效和易用的前提下,大大增强了用户在维基百科上的查询能力,改进了搜索效果,让用户更充分的利用到维基百科中丰富的知识。