基于多本体的智能搜索引擎模型研究与实现

被引量 : 0次 | 上传用户:qq277824282
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着近些年来互联网的迅猛发展,网络数据量呈指数级的增长,用户对搜索的需求越来越多迫切。如何在海量的网页数据中准确、迅速找到用户期望的结果,越来越成为搜索引擎领域热点问题。传统的基于关键字匹配的搜索引擎技术显然已经不能够满足广大互联网需求。随着语义网技术的发展,本体技术进入人们的视野,基于本体的搜索引擎技术越来越受到重视。经过这些年来的探索发展,基于单个领域本体的搜索引擎技术已有所进展。然后,在现在互联网走向个性化、社区化的趋势中,单个网页资源中包含的概念不仅限于一个领域中,很可能是跨领域的概念实体出现在同一个网页资源中。所以,我们需要多领域本体支持的搜索引擎技术来应对这一趋势。本文主要讨论基于多领域本体支持的搜索引擎技术的框架设计及相关技术。首先,结合当前搜索引擎发展状况,讨论了搜索引擎技术的核心问题评价标准,并在此基础上分析了搜索引擎未来的八大发展趋势。然后,分析和比较了现有的语义标注工具和方法,阐述了一般的语义标注流程,给出了一种基于多本体支持的语义标注工具模型设计框图。最后,结合语义标注技术及传统的搜索引擎的模型给出了一种基于多本体支持的搜索引擎框架。通过实验系统的检验,并分析了结果。该框架分为领域信息的采集、网页资源的预处理、元数据抽取、元数据索引、查询扩展及查询重排六个模块。其中,领域信息采集模块,在传统的信息采集系统的基础上,提出了一种动态判定网页是否属于特定领域的采集策略;预处理模块主要是实现了网页去噪、去重等操作,重点讨论了网页去重算法;元数据抽取模块,提出了一种基于XSLT技术的HTML等结构化文档的元数据抽取策略;元数据索引利用倒排索引的技术将抽取到的元数据文档进行索引,为检索操作打下基础;查询扩展通过对查询请求进行语法、语义两方面的推理扩展;查询重排,在Lucene开源框架下,综合链接评价、文档综合评分基础上增加了文档与领域本体的匹配程度三方面因素,提高检索的查准率。经过试验系统的试验检测,该模型在查全率和查准率方面优于传统基于关键字检索模型。
其他文献
翻译本质上是一种跨语言、跨文化的信息传播,是传播学的一个特殊领域.从传播学视角看,景德镇陶瓷文化翻译具有七大要素,即翻译环境、翻译目的、翻译主体、翻译内容、翻译对象
在推荐系统中,为了在一定程度上减少用户评分数据稀疏对推荐效果的负面影响,提出了一种基于用户共同评分项目数和用户兴趣的协同过滤推荐算法。此算法将用户共同评分项目数和
高血压现已成为我国心血管病最重要的危险因素〔1〕。国内外大量的研究已证实了食盐消费量与高血压的相互关系,其中美国第3次健康营养调查(NHANEsⅢ)结果显示,高血压患病率与
目的分析自由基清除剂依达拉奉治疗急性脑出血的临床效果。方法回顾分析我院自2012年10月至2014年10月期间,收治的80例急性脑出血患者的临床资料。按随机数字表法将80例急性
从技术角度分析了汽车造型的发展过程,阐释早期的汽车造型由于受到技术的限制而存在一定的局限性,随着技术的发展汽车造型设计得到了更多自由发挥的空间。并通过分析消费者的心
作为工程起重机械的关重件,平衡阀对重物起落性能的影响非常大。在起重机械的卷扬起落动作中,由平衡阀引起的故障主要有落钩动作滞后、溜钩、落钩抖动、落钩启动冲击等。分析
财务预测及财务计划刘达明(重庆邮电学院管理工程系,重庆400065)1销售预测销售预测从对过去五至十年的销售情况的回顾开始,象图1那样进行表示。图中反映出T电子公司的实际销售量。该公司是
离子液体具有蒸汽压低、液体温度范围以及电化学窗口宽、良好的电导率、热稳定性和化学稳定性等优异的理化性质以及制备简单、种类繁多、环境友好和一定的生物相容性等优点,而
目的探讨脑出血微创术后并发颅内感染的易感因素及治疗原则。方法回顾性分析我科自2002年7月~2011年11月14例因脑出血行微创手术并发颅内感染患者的临床资料并结合相关文献进
矮大叶藻Zostera japonicaAscherson&Graebner是中国北方常见的海草种类之一,但目前已经少见连片分布的矮大叶藻床,并且相关调查研究的报道几乎处于空白。因此,本研究的目的是掌