论文部分内容阅读
随着互联网上信息日新月异的爆炸式增长,如何获取更加准确、更加详细、更加深层的专业资源,成为对搜索引擎技术提出更高的要求。因此,面向专业主题的垂直搜索引擎系统应运而生;与此同时,数码产品为丰富人们的生活注入新的血液,而网上团购数码产品也成了当下流行的消费方式。在如此大市场与技术结合的研究背景下,运用了多个垂直搜索相关的技术相结合,将国内互联网上知名的数码产品网站中的数码产品信息内容作为采集资源对象,在开源的全文检索工具软件包Lucene的平台上,研究和实现了对数码产品信息具有专业化搜索功能的搜索引擎。本文除了详细介绍了垂直搜索引擎的工作原理、以及Lucene核心平台技术外,还介绍了包括了3个构造搜索引擎系统息息相关的关键技术应用:包括聚焦爬虫的工作原理以及Heritrix爬虫技术,在传统爬行策略分析下提出基于爬虫挑食爬行策略进行分析应用,在该策略中引入了几个权重参数如链接的欢迎度、重要度和最短路径查找实现算法;介绍了Web网页信息提取方法步骤,以及常见的方法分类,最后提出基于数码产品设计规则提取方法的分析,研究中针对主题大型网站5个设计规则结构进行分析,并针对这几个设计规则提出内容抽取综合方案;最后通过实验结果分析改进方法的有效性。实现了系统的功能结构图设计、各模块功能设计、用例流程图设计、数据库设计以及类图关系设计编码等。研究实践表明,本文设计实现的数码产品垂直搜索引擎的方案是切实可行的,系统基本能达到了预想的设计理念与目标。