论文部分内容阅读
Tnternet已经成为目前世界上最大的信息资源库,但是网上信息资源纷繁芜杂,如何满足人们对快速、准确而全面获取信息的要求,已经成为摆在人们面前的一大难题。本文从理论和实践两个方面探讨了网络信息检索技术以及检索技术在搜索引擎系统中的应用,提出了将基于内容和基于链接的搜索技术相结合的思想,设计了一个面向主题的搜索引擎iRobot系统,阐述了它的结构和设计开发原理。 论文共分三个部分。第一部分(第一章)为总论,阐述了网络信息检索发展的现状和搜索引擎发展的不足,指出了主题型搜索引擎的概念和进行研究的必要性。第二部分(第二章)为设计iRobot系统所涉及的关键技术的研究。本文系统阐述了信息检索的原理和搜索引擎技术,并对网络信息索引、本体论、网络挖掘、信息过滤、智能代理、网络信息检索算法做了深入的剖析。第三部分(第三到第七章)为iRobot的具体实现部分,在上述理论分析的基础上给出了iRobot系统的设计思想和原则,分析了iRobot的工作流程,并详细的介绍了iRobot的结构和实现技术。 iRobot系统是一个面向主题的搜索系统,用于为专业人士或机构搜集信息。整个系统的核心分为三个部分:1、初始化部分:系统的初始化部分包括向导程序和待搜索种子站点集合的扩充。iRobot系统种子站点集合的扩充由简单元搜索引擎和超链分析实现,向用户推荐一些与主题相关的待搜索站点,为主题搜索系统的爬行部分提供一个良好的起始运行环境。2、搜索部分:iRobot系统从众多的实时搜索算法中选择了Fish算法作为实现的核心,并对Fish算法做了改进,加入了关键字的上下文分析能力。iRobot系统的搜索部分采用了多线程搜索的技术,提高了搜索速度。3、结果处理部分:iRobot将存到本地的网页进行处理,去除网页中的无关信息,将网页分类存入数据库并最终提交用户,获取用户反馈。 文章的最后总结了iRobot系统的研究和开发经验,并对未来的工作进行了展望。iRobot系统是一个较高效率的网络信息搜索系统,实现了面向主题的实时搜索功能,具有种子站点的自动扩充功能和友好的人机接口。