论文部分内容阅读
进入二十一世纪,伴随着电子信息技术的飞速发展,网络信息化的普及使得互联网技术迎来了一个前所未有的发展机遇。网络信息资源的不断增长不仅为人们提供了更多获取丰富的知识的便捷途径,加快了信息的传播和交流,还为人们的工作和日常生活带来了无限的便利。通过互联网人们几乎可以查找到自己需求的任何信息。然而,面对如此浩瀚的网络资源,如何能够快速准确的找到每个用户需求的准确信息变得尤为重要。针对以上问题,搜索服务技术的出现和发展为用户提供了最佳的解决方案。用户通过访问搜索服务提供的网络接口页面,输入自己想要查询的关键词,即可快速准确的得到相关网页集合的检索排序结果。然而针对校园网络这个特殊的网络环境,由于网络进出口带宽的限制,网络更新匹配周期的差异,通用的搜索服务无法覆盖到校园网络的每一个网页。因此校园网用户在使用通用的搜索服务检索自己需求的校园网络资源时,很难得到自己满意的结果。随着各院校办学资源和招生规模的不断扩大,越来越多的用户访问校园网资源。提供一种快速解决当前校园网络便捷访问的方法变得尤为迫切。本系统基于本校校园网络数据资源进行开发,实现校园网络下不同网页站点搜索页面的接口整合。系统提供了一个统一的用户检索接口,减少了以往不同站点配备不同的检索接口的繁琐。校园网络用户只需访问初始的搜索页面,输入任意需求的查询关键词,即可快速定位得到校园网络相关匹配网页链接的排序结果。本文首先介绍了网络信息导航系统的基本原理和主要技术,根据提出的设计目标和开发原则,将整个系统划分为数据抓取、链接分析、索引建立和检索排序四个主要的功能模块进行设计研究。系统使用以Lucene为核心的开源网络数据抓取程序Nutch作为系统引擎架构,同时结合IK-Analyzer中文分词组件对文本信息进行分析处理,使用Lucene内部的索引机制为网页链接建立索引,为用户提供快速准确的检索服务。同时系统采用Hadoop框架应用MapReduce技术实现数据的分布式存储和并行计算,增强了整个系统数据处理的能力,并降低了系统对硬件配置的要求。本系统基本实现了在设计之初提出的目的和要求,同时在文章的结尾针对系统的不完善之处进行了分析说明,对下一步系统的进一步完善提出了要求。