论文部分内容阅读
随着Internet的快速发展,Web已经增长成为全球的信息资源库,网络信息量正以指数规模增长,人类已经步入信息爆炸时代。如何在海量信息中快速、准确地检索出需要的信息,是信息检索系统需要解决的问题。当前的搜索引擎(SE,search engine)虽然提供了信息检索服务,但自身存在着种种缺陷。目前,常见的通用搜索引擎虽然可以查到范围很广的信息,但因其涉及领域太广,对某些特定领域的检索服务则不够深入和专业化。同时,深网的出现也给传统的基于爬虫的搜索引擎技术带来了极大的挑战。且现有的多数搜索引擎主要是基于关键词的全文检索或是基于网站主题的分类浏览,缺乏语义处理能力,往往导致误检、漏检。因此,如何改进搜索引擎技术,提高Web信息的检索质量,寻求新的、智能化的检索方法也就成为了当前信息检索、数据挖掘等研究领域的重要课题。本文的主要工作主要体现在以下三个方面:第一,分析研究了搜索引擎的发展现状,阐述了主题搜索引擎的研究意义及体系结构,并深入研究了主题搜索引擎的核心技术,包括主题相关度的判断,中文分词技术,网页排名技术等。选取当前文本分类效果较好的SVM分类算法,以科普领域为例,设计并实现了基于领域的主题分类器,并通过实验证明分类准确率达94%以上。第二,研究并论述了深网(Deep Web)的成因、特点及国内外研究现状,并与主题搜索技术相结合,对面向领域的深度搜索引擎进行了研究与设计,利用基于网页结构分析的表单填写技术设计并实现了面向领域的深网信息集成模块,对提高主题搜索引擎的查询深度及实时性方面有显著作用。第三,在以上研究及设计的基础上,对语义网和本体论等相关技术做了深入研究,融合信息检索技术,结合语义网、本体知识的特点,给出一种面向领域的智能深搜索引擎模型。模型主要分为以下几个设计重点:主题相关度判断、深网信息集成、领域本体库的自动建立、语义推理、概念相似度的算法和系统实现。本文的特色和创新之处在于:将主题搜索技术和深网信息集成技术相结合应用于科普领域,研究并设计实现了我国首个科普领域的搜索引擎;提出了一种基于百科资源的领域本体自动创建方法,并将其应用于科普领域,构建科普领域本体知识库;利用语义检索技术,将科普本体知识库用于科普搜索引擎的语义扩展和推理中,给出了一种面向领域的智能深度搜索引擎模型,对提高主题搜索引擎的查全率、查准率和语义理解能力做了大量工作。