面向领域的智能深度搜索引擎的研究

被引量 : 1次 | 上传用户:ch32918
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的快速发展,Web已经增长成为全球的信息资源库,网络信息量正以指数规模增长,人类已经步入信息爆炸时代。如何在海量信息中快速、准确地检索出需要的信息,是信息检索系统需要解决的问题。当前的搜索引擎(SE,search engine)虽然提供了信息检索服务,但自身存在着种种缺陷。目前,常见的通用搜索引擎虽然可以查到范围很广的信息,但因其涉及领域太广,对某些特定领域的检索服务则不够深入和专业化。同时,深网的出现也给传统的基于爬虫的搜索引擎技术带来了极大的挑战。且现有的多数搜索引擎主要是基于关键词的全文检索或是基于网站主题的分类浏览,缺乏语义处理能力,往往导致误检、漏检。因此,如何改进搜索引擎技术,提高Web信息的检索质量,寻求新的、智能化的检索方法也就成为了当前信息检索、数据挖掘等研究领域的重要课题。本文的主要工作主要体现在以下三个方面:第一,分析研究了搜索引擎的发展现状,阐述了主题搜索引擎的研究意义及体系结构,并深入研究了主题搜索引擎的核心技术,包括主题相关度的判断,中文分词技术,网页排名技术等。选取当前文本分类效果较好的SVM分类算法,以科普领域为例,设计并实现了基于领域的主题分类器,并通过实验证明分类准确率达94%以上。第二,研究并论述了深网(Deep Web)的成因、特点及国内外研究现状,并与主题搜索技术相结合,对面向领域的深度搜索引擎进行了研究与设计,利用基于网页结构分析的表单填写技术设计并实现了面向领域的深网信息集成模块,对提高主题搜索引擎的查询深度及实时性方面有显著作用。第三,在以上研究及设计的基础上,对语义网和本体论等相关技术做了深入研究,融合信息检索技术,结合语义网、本体知识的特点,给出一种面向领域的智能深搜索引擎模型。模型主要分为以下几个设计重点:主题相关度判断、深网信息集成、领域本体库的自动建立、语义推理、概念相似度的算法和系统实现。本文的特色和创新之处在于:将主题搜索技术和深网信息集成技术相结合应用于科普领域,研究并设计实现了我国首个科普领域的搜索引擎;提出了一种基于百科资源的领域本体自动创建方法,并将其应用于科普领域,构建科普领域本体知识库;利用语义检索技术,将科普本体知识库用于科普搜索引擎的语义扩展和推理中,给出了一种面向领域的智能深度搜索引擎模型,对提高主题搜索引擎的查全率、查准率和语义理解能力做了大量工作。
其他文献
情感主义作为西方伦理学的一个重要理论范型,对当代的伦理学以及道德教育的发展都产生了深远的影响。本文分析概括了情感主义的产生及其在20世纪的复兴,集中阐述了它对于当代
铁路作为作为国家经济社会发展的运输大动脉,系统庞大而复杂,牵一发而动全身,任何一点疏漏和外来影响,都可能会造成大的影响和事故。为最大程度的降低事故对人民群众生命和财产的
政治现代化是比较政治学研究的一个重要议题。近半个多世纪以来,大多数国家开始了现代化进程,并在不同程度发生着政治变迁。在诸多现代化发展中国家中,泰国是一个极具典型的国家
<正>未来世界能源格局到底会是什么样的状况?未来世界会使用什么样的能源呢?我认为首先有两个问题对于未来得能源格局产生重大的影响。一个是美国页岩气的革命,第二,全球应对
磁耦合感应式无线电能传输(MCI-WPT)感应区域传输效率高,而磁耦合谐振式无线电能传输(MCR-WPT)谐振区域传输效率高,为解决两者优势不可兼得的问题,提出磁耦合双模无线电能传
树莓(Rubus spp.)又称山莓、覆盆子、托盘等,属被子植物门(Angiospermae),双子叶植物纲(Magnoliopsida),蔷薇目(Rosales),蔷薇科(Rosaceae),悬钩子属(Rubus.L),是一种多年生落叶灌木果树,产量高
在激烈的市场竞争中,持续、快速地进行产品创新是企业提升竞争能力的主要途径。产品创新由产品设计所决定,产品设计是知识高度密集型的智力活动,具有社会性、技术性和认知性的特
采用2种分别具有Cs对称性和C1对称性的异双桥联茂金属催化剂(Me_2C)(Me_2Si)Cp_2TiCl_2、[(CH_2)_5C](Me_2Si)Cp_2TiCl_2,在助催化剂甲基铝氧烷(MAO)的作用下用于丙烯聚合.通
流动性、安全性、盈利性是商业银行经营的三性原则,其中,流动性是商业银行的生命线,对于银行来说具有重要意义。本文主要从微观和宏观角度出研究我国上市商业银行流动性的测
快速控制反射镜(FSM)是复合轴跟踪系统的子轴跟踪系统中的执行机构,其结构具有行程小、精度高、响应速度快、动态滞后误差小等优点。在快反镜中,安装其上的位移传感器的检测精