论文部分内容阅读
Internet已经成为目前世界上最大的信息资源库,但是网上信息资源纷繁芜杂,如何满足人们对快速、准确而全面获取信息的要求,已经成为摆在人们面前的一大难题。搜索引擎的出现可以帮助用户在网络上方便地查找到自己需要的信息。但是目前的搜素引擎由于存在网页覆盖率低、索引不及时和返回结果不精确等缺点,难以满足专业用户如某一领域的科技工作人员对信息的需求,在这种情形下,专题性搜索引擎应运而生。然而目前流行的专题性搜索多在语法级层面进行实践、对查询语句仅进行机械性的匹配,效果不够理想。本课题—基于本体的专题性搜索引擎选择引入本体技术,通过对用户的查询输入进行一定的语义分析和处理,使得搜索引擎具备一定的智能性,对搜索结果在查全率和查准率上都有所提高。在信息采集方面,本论文给出了设计专题网络蜘蛛的方法:在对抓取下来的网页进行处理时,本文采取以词典分词为基础的正反向全切分算法进行中文分词;针对用户搜索关键字的模糊性及搜索返回结果的欠精确问题,本文应用本体通过相关概念之间的关联执行搜索,在返回用户查询结果时通过使用链接文档及相关的概念进行过滤及排序。本论文的主要工作如下:(1)阐述了搜索引擎的概念和发展现状,分析了搜索引擎的基本原理、构成。突出介绍专题性搜索引擎的优势。(2)设计出专题网络蜘蛛。给出了专题性网络蜘蛛程序设计的策略和模型,实现了Spider程序对Internet上的网页资源按照主题相关进行访问、抓取并保存到网页文件库。(3)运用倒排索引原理,实现了对网页文件的索引。在索引处理过程中,对网页文本库中的网页文件进行初步分析,滤去无效内容,再利用以词典分词为基础的正反向全切分算法对正文进行中文分词处理,最后提取文档特征信息,建立倒排索引文件。(4)设计出鞋业领域的本体库。查阅鞋业领域知识,在专业人士的帮助下确定领域核心概念,按照本体构建方法和规则,利用prot(?)g(?)工具开发出鞋业领域的本体知识库。(5)设计出基于本体的查询器。在用户查询部分,根据用户输入的关键词,先利用以词典分词为基础的正反向全切分算法进行分词处理,提取出初步关键词;将初步关键词与本体库中的概念实例进行匹配、推理,得出标准关键词;再进入索引库进行搜索查找,对查询结果按网页与查询条件的相关度排序显示给用户。(6)对基于本体的专题性搜索引擎系统进行了总体上的实现,针对一些例子进行了测试,并对结果做出了分析。基于上述对本文工作内容的总结,本文的特色在于:(1)结合鞋业领域的特点,利用prot(?)g(?)本体建模工具开发出适合鞋业领域的本体库,对鞋业领域的本体建模做出了有益的探索。(2)根据设计的页面相关性判断策略,开发出有自己特色的Spider程序,对专题性网络蜘蛛的设计做出了一次有意义的实践。(3)目前专题性搜索引擎的设计多停留在语法级别的应用上,本论文设计实现的基于本体的专题性搜索引擎系统是一次语义级的探索,对类似系统的开发有借鉴意义。