论文部分内容阅读
Lucene是一个用Java写的全文索引引擎工具包,访问索引时间快,支持多用户访问,可以跨平台使用。Heritrix是一个开源的由Java开发的Web网络爬虫框架,用户可以使用它从网络上抓取想要搜索的资源。该文分析了Lucene的索引机制,探讨了Heritrix的结构框架,最后结合实例对基于Lucene和Heritrix技术的全文检索的应用进行深入研究。