基于本体的专题性搜索引擎的研究与实现

来源 :武汉理工大学 | 被引量 : 17次 | 上传用户:iflytekmilk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet已经成为目前世界上最大的信息资源库,但是网上信息资源纷繁芜杂,如何满足人们对快速、准确而全面获取信息的要求,已经成为摆在人们面前的一大难题。搜索引擎的出现可以帮助用户在网络上方便地查找到自己需要的信息。但是目前的搜素引擎由于存在网页覆盖率低、索引不及时和返回结果不精确等缺点,难以满足专业用户如某一领域的科技工作人员对信息的需求,在这种情形下,专题性搜索引擎应运而生。然而目前流行的专题性搜索多在语法级层面进行实践、对查询语句仅进行机械性的匹配,效果不够理想。本课题—基于本体的专题性搜索引擎选择引入本体技术,通过对用户的查询输入进行一定的语义分析和处理,使得搜索引擎具备一定的智能性,对搜索结果在查全率和查准率上都有所提高。在信息采集方面,本论文给出了设计专题网络蜘蛛的方法:在对抓取下来的网页进行处理时,本文采取以词典分词为基础的正反向全切分算法进行中文分词;针对用户搜索关键字的模糊性及搜索返回结果的欠精确问题,本文应用本体通过相关概念之间的关联执行搜索,在返回用户查询结果时通过使用链接文档及相关的概念进行过滤及排序。本论文的主要工作如下:(1)阐述了搜索引擎的概念和发展现状,分析了搜索引擎的基本原理、构成。突出介绍专题性搜索引擎的优势。(2)设计出专题网络蜘蛛。给出了专题性网络蜘蛛程序设计的策略和模型,实现了Spider程序对Internet上的网页资源按照主题相关进行访问、抓取并保存到网页文件库。(3)运用倒排索引原理,实现了对网页文件的索引。在索引处理过程中,对网页文本库中的网页文件进行初步分析,滤去无效内容,再利用以词典分词为基础的正反向全切分算法对正文进行中文分词处理,最后提取文档特征信息,建立倒排索引文件。(4)设计出鞋业领域的本体库。查阅鞋业领域知识,在专业人士的帮助下确定领域核心概念,按照本体构建方法和规则,利用prot(?)g(?)工具开发出鞋业领域的本体知识库。(5)设计出基于本体的查询器。在用户查询部分,根据用户输入的关键词,先利用以词典分词为基础的正反向全切分算法进行分词处理,提取出初步关键词;将初步关键词与本体库中的概念实例进行匹配、推理,得出标准关键词;再进入索引库进行搜索查找,对查询结果按网页与查询条件的相关度排序显示给用户。(6)对基于本体的专题性搜索引擎系统进行了总体上的实现,针对一些例子进行了测试,并对结果做出了分析。基于上述对本文工作内容的总结,本文的特色在于:(1)结合鞋业领域的特点,利用prot(?)g(?)本体建模工具开发出适合鞋业领域的本体库,对鞋业领域的本体建模做出了有益的探索。(2)根据设计的页面相关性判断策略,开发出有自己特色的Spider程序,对专题性网络蜘蛛的设计做出了一次有意义的实践。(3)目前专题性搜索引擎的设计多停留在语法级别的应用上,本论文设计实现的基于本体的专题性搜索引擎系统是一次语义级的探索,对类似系统的开发有借鉴意义。
其他文献
数字水印技术是实现数字产品版权保护的一种有效方法,目前已成为信息安全领域的研究热点,也是信息隐藏研究领域的重要分支。嵌入水印的数字产品在传输过程中易遭到攻击;水印技
运动全景图将前景区域中运动员在每个时间节点上的技术动作叠加在静态背景中,从而帮助教练员和运动员对体育技术动作的完成情况进行静态的分析,从全局上体会动作、掌握要领。
江苏电力调度通信中心已建设的一批专业应用系统采集和积累了大量的电力系统运行、生产管理以及电力市场运营等方面的宝贵数据,为了将各个系统中分散的数据进行整合,更好地为电
近来,多宿主主机已经变得越来越普遍,尤其是在移动用户中。为了在文件传输中充分利用多个接入点,IETF已经提出来多路径传输控制协议(MPTCP)。MPTCP作为TCP的扩展,是在TCP的基
高通公司的BREW平台以其适用性和灵活的开发方法,受到了广大开发人员的广泛关注,在近年的应用开发过程中,已经形成了相对成熟的框架机制。大量优秀的应用已经进入了商用阶段,
概念语义相似度的测量是自然语言处理的一个重要的研究内容,它在信息检索、机器翻译、词义排歧、自动问答等领域都有广泛的应用,它是一个基础的研究课题。目前对概念语义相似
随着计算机技术、通信技术、控制技术及工业技术的发展,工业控制领域逐渐向信号数字化、控制智能化、通信网络化的开放式系统方向发展。现场总线与虚拟仪器技术在工业控制领
阈下信道作为一种典型的信息隐藏技术,是指在公开信道中建立的实现隐蔽通信的信道。利用阈下信道,通信双方可以在普通的数字签名中传递秘密信息,除通信双方以外的任何人均不
支持向量机(SVM)是在1995年由Vapnik等人提出的。支持向量机来源于统计学理论,并基于结构风险最小化原则。支持向量机与传统的学习方法相比具有避免局部最优解及过拟合等特点
随着大数据量的图像及视频文件的高质量显示在各种场合越来越突出的应用需求,大屏幕的显示环境已经成为一个常用的需求,计算机显卡的处理能力的日益发展已经能为整个显示提供