论文部分内容阅读
Nutch是一个开放源代码的Web搜索引擎,是以Lucene为基础实现的搜索引擎应用程序,其工作流程和现代的商业搜索引擎工作原理一样,即网页搜集、预处理(建立索引)和查询服务.由于不夹杂商业利益,它对搜索结果的排序算法较为透明公平.我们可以利用Nutch并结合中文分词技术来构建自己的中文搜索引擎.