论文部分内容阅读
本文设计并实现了一个灵活、可配置、具有良好可扩展性且效率较高的校园网FTP搜索引擎系统。
本文在研究Web搜索引擎的基本原理、核心技术和处理流程的基础上,结合校园网搜索引擎的个性化需求,搭建了广州大学华软学院校园网的搜索引擎系统。完成了所有的开发与测试工作。
本文论述了系统开发的背景和国内外搜索引擎技术发展现状,并详细说明了该搜索引擎系统的开发过程和方法。首先从功能需求和非功能需求两个方面对校园网搜索引擎的个性化需求进行分析。然后根据需求分析提出了实现目标和原则,从系统的模块架构和技术架构两个方面描述了系统的整体功能和总体流程。
在技术架构设计中,自行设计了网络爬虫和优化了中文分词算法,用于提高系统的可扩展性、灵活性、可维护性,并降低了设计和开发的复杂性。另外,采用分布式处理模型作为存储和处理的基础,提高系统的并发处理能力,降低系统对硬件配置的要求。
在详细设计阶段,具体描述了各个功能模块和插件机制的设计。最后对实现过程中遇到的重要问题提出了详细的解决方案。系统实现部分描述了系统的运行环境和实现界面,并重点叙述了实现过程中的几个关键问题,如分词算法的实现以及链接分析算法的实现等。最后对系统进行测试,并根据测试结果进行了性能分析。实验证明,与原有搜索引擎相比,新的搜索引擎系统在检索效率和查准率等方而都有了质的提高。