论文部分内容阅读
由于网络带宽的提高,人们通过网络共享大量数据文件,而架设Ftp服务器来提供共享服务无疑是最节约成本投入方式。因此研究一种高性能的Ftp搜索引擎来帮用户定位数据文件是非常有必要的,它可以大大提高Ftp文件查找速度、准确度,对节省查询成本、提高工作效率有积极意义。
本文在详细分析了Ftp协议的相关工作机制以及实现原理,结合Ftp协议讨论了Ftp搜索引擎的工作机制,并阐述了目前Ftp搜索引擎的研究进展和研究现状,给出了预期的研究目标和研究内容。接着简略阐述了Ftp搜索引擎三大性能指标,即查准率、查全率、查询代价。根据系统设计目标,设计一个基于Web界面,并能够提供多种查询方式、大数据量、查询速度较快的Ftp搜索引擎,指出了本搜索引擎在Linux平台下Web实现的系统软硬平台选型和主要模块。系统主要分为三大模块,即数据采集模块、数据检索模块、数据更新模块,并对各个模块设计思路进行了说明介绍。接着详细给出了系统设计实现中各个模块相关数据结构和实现,在实现中我们设计了一种IP距离计算思路来判断目标主机和源主机的距离,以便在检索结果输出时将距离较近的结果靠前反馈给客户,引入了服务器存活性检查,通过收集客户反馈来优化搜索结果输出,查询结果的文件属性过滤等功能,这些都丰富了搜索引擎的功能,在一定程度上提高了检索的准确度和精确度,给出了搜索引擎的性能展望。最后对研究课题进行了分析展望,指出了搜索引擎需要改进的几大问题,即当文件过大的时,严重消耗系统存储资源,必须压缩后存放、将系统进行分布式部署、数据在多个搜索引擎间同步,在数据检索模块引入索引机制,分析了常用索引和倒排索引机制,探讨了一种新的索引思路来增加系统检索效率。