基于JAVA+LUCENE+HERITRIX的WEB垂直搜索引擎技术研究与实现

来源 :河北工业大学 | 被引量 : 7次 | 上传用户:zlq5626
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet网上的信息呈几何级数式的增长,搜索引擎已经成为用户浏览网络信息的首选。传统的通用搜索引擎(Google、Yahoo以及国内的Baidu等等),作为一个辅助用户查找信息的工具已经成为大多数互联网用户访问网络的入口。但是,这些通用性搜索引擎也存在着一定的局限性,如:通用搜索引擎的信息量过大、查询不准确、深度不够等问题。在这种情况下,为了解决这些问题,垂直搜索引擎应运而生。垂直搜索引擎是专注于某一行业或领域,满足行业专业需求、或者某项业务需求的专业搜索引擎,是搜索引擎的细分和延伸,是对某类网页资源和结构化资源的深度整合,并为用户提供符合专业用户操作行为的信息服务方式。其特点就是“专、精、深”,且具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则更加专著、具体和深入。本文重点研究并剖析了这种新兴的技术。本文的主要研究内容如下:1.研究了垂直搜索引擎的由来,发展过程和应用现状。分析研究了传统的搜索引擎开发应用模型和搜索引擎的Web应用模型,对搜索引擎技术包含的关键技术进行了分析。2.阐明了Lucene技术,Heritrix技术,信息结构化提取技术的基本原理和使用方法,提出整合Lucene与Heritrix使其与J2EE平台完全融合的方案。3.实现手机产品垂直搜索引擎系统。
其他文献
文章介绍了网格的概念、特点及功能,着重论述了网格技术在高校图书馆信息服务中的重要作用,以及高校图书馆实现信息服务所必须解决的几个主要问题。
文章对图书馆开展文献传递服务中存在的版权问题进行了分析,并从公有领域作品、合理使用、法定许可、公益服务、成立行业版权保护联盟等方面入手,提出了解决文献传递服务中版
有机化学是高中化学的“核心知识”之一,并且贯穿于高中化学教材的始终,在近几年高考热点问题考查中处于重要地位。围绕高中有机化学中的若干“核心知识”的“学习进阶”进行
按照安全性与开放性并重、领先性与成熟度并重、有效性与易用性并重原则,开发了基于GIS和网络技术的长春市水资源可持续管理信息系统。系统平台包括硬件条件、软件环境、网络
<正>经过近年来各级政府的大力支持和农民专业合作社成员的共同努力,农民专业合作社事业蓬勃发展。为了降低费用,提高收益,整合上下游产业链,取得市场主体地位,进一步走向市
本文研究了2013年-2016年的高考化学全国Ⅰ卷的有机合成题中的知识迁移问题,分析总结了解题方法和技巧,通过信息比对和以官能团为核心的信息转换,能有助于考生形成快速正确的