论文部分内容阅读
近年来,随着互联网技术的快速发展,维基百科已经成为全球最大的开放性内容知识平台之一,而且其所包含的知识以及规模几乎每时每刻都在更新和增加,使得维基百科在多个领域内的应用越来越广泛,其中把维基百科当作一个自然的大规模语料资源进行自然语言处理方面的研究取得了不少成果。随着维基百科规模和内容的不断丰富,其用户数量也是保持不断增长,然而维基百科站点内部的搜索引擎却仍然是传统的全文匹配式搜索,且每个条目的解释文档中虽然含有指向其他条目的内部链接,但是有很多链接与这个条目并没有语义上的关系。本文认为,良好的搜索应该是基于语义的,因此如何在维基百科内搜索信息时增添语义功能是一个研究重点。搜索时添加语义相关功能可以在搜索时计算与搜索条目具有一定相关性的条目并呈现给用户,但是由于维基百科数据量巨大,语义相关性计算复杂,整个过程将会耗费大量的时间,对检索效率和用户体验都是大大不利的。因此本文提出一种利用维基百科语料资源构建语义知识库来提高查询效率的方法。本文首先对维基百科的特性,包括其分类结构、页面结构、页面链接结构以及各种数据的存储格式进行了详细研究,然后制定了一套能够有效抽取维基百科结构化信息的流程,从而得到本文研究赖以实现的基础语料资源,并在该语料资源的基础上,提出一种语义相关度的计算方法。接着本文根据预处理过程得到的语料资源,结合传统语义知识库的知识表示形式和语义特征,提出一种语义知识的表现形式,并据此构建了一个知识库。最后本文在构建的知识库的基础上,实现了一个简单的知识查找系统,可以使用户在查询某个知识的时候,方便快捷的查看与当前知识有语义相关的其他知识。