论文部分内容阅读
全文检索在提取和分析大规模网页数据方面具有很大的优势,它是当前和未来信息检索领域的一个比较重要的研究方向。本文介绍了全文检索系统的设计思路和实现方法,整个系统主要包括网页采集工具、分析器、内容相似性分析工具、网站识别工具、基于内容的自动分类工具、索引模块、检索模块等6个功能模块,并着重对全文检索系统涉及的相关技术进行了详细阐述。