论文部分内容阅读
随着近些年来互联网的迅猛发展,网络数据量呈指数级的增长,用户对搜索的需求越来越多迫切。如何在海量的网页数据中准确、迅速找到用户期望的结果,越来越成为搜索引擎领域热点问题。传统的基于关键字匹配的搜索引擎技术显然已经不能够满足广大互联网需求。随着语义网技术的发展,本体技术进入人们的视野,基于本体的搜索引擎技术越来越受到重视。经过这些年来的探索发展,基于单个领域本体的搜索引擎技术已有所进展。然后,在现在互联网走向个性化、社区化的趋势中,单个网页资源中包含的概念不仅限于一个领域中,很可能是跨领域的概念实体出现在同一个网页资源中。所以,我们需要多领域本体支持的搜索引擎技术来应对这一趋势。本文主要讨论基于多领域本体支持的搜索引擎技术的框架设计及相关技术。首先,结合当前搜索引擎发展状况,讨论了搜索引擎技术的核心问题评价标准,并在此基础上分析了搜索引擎未来的八大发展趋势。然后,分析和比较了现有的语义标注工具和方法,阐述了一般的语义标注流程,给出了一种基于多本体支持的语义标注工具模型设计框图。最后,结合语义标注技术及传统的搜索引擎的模型给出了一种基于多本体支持的搜索引擎框架。通过实验系统的检验,并分析了结果。该框架分为领域信息的采集、网页资源的预处理、元数据抽取、元数据索引、查询扩展及查询重排六个模块。其中,领域信息采集模块,在传统的信息采集系统的基础上,提出了一种动态判定网页是否属于特定领域的采集策略;预处理模块主要是实现了网页去噪、去重等操作,重点讨论了网页去重算法;元数据抽取模块,提出了一种基于XSLT技术的HTML等结构化文档的元数据抽取策略;元数据索引利用倒排索引的技术将抽取到的元数据文档进行索引,为检索操作打下基础;查询扩展通过对查询请求进行语法、语义两方面的推理扩展;查询重排,在Lucene开源框架下,综合链接评价、文档综合评分基础上增加了文档与领域本体的匹配程度三方面因素,提高检索的查准率。经过试验系统的试验检测,该模型在查全率和查准率方面优于传统基于关键字检索模型。