论文部分内容阅读
近年来,随着互联网用户数量的增加,网上信息迅速膨胀,搜索引擎成为了人们获取新知识的重要手段。然而传统的搜索引擎查询系统大多是基于关键字匹配的,所以在进行搜索时会带来一些问题,比如查询返回信息过多或者不容易找到与查询相关的信息等等。智能化是未来搜索引擎应该追求的方向,这主要表现在两个方面:一是对搜索请求的理解,二是对网页内容的分析。基于概念的智能检索才符合信息检索未来的需求。形式概念分析(Formal Concept Analysis,以下简称FCA)的主要内容是研究“概念”和“概念分层”的数学化描述,其主要思想是:从被表示为形式背景(Formal Context)的数据中获取形式概念(Formal Concept)以及形式概念之间的联系,形成一种以形式概念为元素的格结构——概念格(Concept Lattice)。随着概念格应用的不断深入,概念格之间的匹配研究也越来越重要。本文首先提出了基于概念格的搜索引擎匹配模型,即将自然语言的用户查询与网页文档分别构建概念格,然后进行匹配。在进行概念格匹配时,本文提出了一种基于WordNet的概念格语义匹配算法。目前搜索引擎的智能化表现在对自然语言的语义分析和内容信息的理解,这离不开语义知识库的支持,它是帮助计算机“了解”人类语言的一个媒介和桥梁,也是让计算机逐渐“聪明”起来的物质前提。在众多的语义知识库中,WordNet体系简洁、内容详实,已经成为自然语言处理领域最重要的公用语义资源和语义知识库事实上的国际标准。我们用WordNet来计算词汇语义间复杂的难以把握的语义关系,构造出相似图,然后通过计算节点与节点之间的相似度,节点与概念格之间的相似度,最后得到概念格与概念格之间的相似度。本文还研究了概念格的语义匹配算法在网络爬虫的智能爬行方向的选择方面的重要作用。包括了种子URL的选择,网页的解析与获取,索引库的建立,网页中属性的抽取,造格算法以及概念格语义匹配等多个方面。实验证明在基于FCA的搜索引擎模型中,基于WordNet的概念格语义匹配算法的可行性。FCA的搜索引擎模型的优越性体现在对数据源的有效组织方面,反映出文档之间或者文档中事物之间潜在的语义关系。同时,概念格的语义匹配算法的实用价值和性能也在实验中得到了验证。