论文部分内容阅读
随着网络的不断普及,搜索查询越来越被广泛地使用,但是由于目前计算机并不能理解网页内容的语义,所需信息的查准率比较低。本体是解决语义层次上Web信息共享和交换的基础,在查询时引入本体,将有助于改变这一现状。基于此,论文在本体的基础上对Web上的内容及其语义进行了分析研究,主要包括以下内容:
在语义原生XML数据库系统(简称SNAX系统)的整体框架下,提出了基于本体的Web语义分析模型,它主要包括网页收集、文档解析、语言分析、查询分析、存储索引和搜索查询等模块,并重点对网页收集和文档解析进行了研究岔析。
网页收集主要是指通过Web页面之间的链接关系,从Web上自动地获取页面信息,并且随着链接不断向整个Web扩展的过程。论文设计了一个网络蜘蛛算法,通过给定一个初始的URL,在设定收集范围、线程数目等条件下,自动实现Web页面的收集。
文档解析主要完成将收集到的Web页面解析成XML文档。论文提出了一个基于链式结构的XML文档解析方法,具体包括DOM解析树生成算法、改进的先根遍历DOM树的递归算法以及对应的二叉链表实现算法等三个算法以完成解析过程,最终得到XML文档。
通过实验对比,在查询准确性方面,基于本体的语义分析方法比不利用本体直接分词然后查询的方法要高,而在查全率方面,两者的性能相差无几。