论文部分内容阅读
面向主题的垂直搜索引擎是一种分类细致、更新及时的搜索引擎,在针对确定了主题领域的搜索服务建设中,有着良好的表现。同时,智能搜索引擎的研究也已经成为搜索引擎领域研究的重要内容。本文着重研究现有的搜索引擎理论和技术的成果,在北京市教育信息智能系统的项目框架下,引入了基于Nutch的智能化网页资源采集和检索的设计方案。进行了如下内容的研究:
首先,本文叙述了搜索引擎的发展现状和特点。并且深入研究了搜索引擎相关的理论和关键技术,掌握搜索引擎工作流程中的关键技术的应用。找到适合本系统的技术策略,以及进行智能化,个性化改造的方式方法。
其次,结合以上对搜索引擎的技术的讨论,重点研究了基于Java的开源项目——全文搜索引擎系统Nutch,分析了Nutch所采用的技术框架,系统工作流程和扩展机制,集中体现了利用Nutch进行搜索引擎二次开发的高效性和可靠性。
接着,针对项目的实际需要,有目的地从多个方面对Nutch进行了升级改造,从而搭建起面向确定主题的智能化的垂直搜索引擎。具体工作包括向Nutch系统增加中文分词功能,从而增加了系统对中文的适应能力,使得系统在进行中文检索时有更好的表现;在网络信息收集过程中,通过对前期搜集信息的整理建立了主题相关的URL列表,并对URL中的地址进行二次搜索,从而通过限定URL范围的策略来保证与主题的相关度;对用户的搜索结果的进行聚类以及基于人工配置的分类,使得结果更加明确直观;以及一些必要的细节修正。在开发改造过程中,综合运用了Nutch的插件机制,修改源码和应用API三种方式,使得开发环节逻辑清晰,思路明确。并对结果进行了展示。从结果可以看出基于Nutch的智能化搜索引擎能够有效避免噪音干扰,提供高效,准确的信息检索服务。
最后,对论文的工作进行了总结,指出存在的不足和今后的发展方向。