论文部分内容阅读
基于Heritrix+Lucene数据库搜索引擎是一种将抓取和索引的技术优势融入到搜索引擎的方法,用户通过查询接口输入关键词,将用户输入字符串根据分词词典进行分词,将根据分词查询索引文件,关联相关的源文档,从而返回查询信息的过程。在服务器安全性、链接有效性以及更新及时性等方面拥有良好的性能。本文分析了基于Heritrix+Lucene数据库搜索引擎在工作原理、关键技术等方面的相关技术,介绍了Lucene建立索引和搜索的原理,并且在构建词库的同时,研究了分词技术,提出了一种优化词表法的分词思想,在Lucene的基础上以决策树和链表的形式将字典中的分词存储在内存中,用最大匹配算法结合决策树将用户输入字符串进行分词,开发了属于自己的中文分词模块,将这种思想加以实现并且通过实验与传统的Lucene自带的分词技术在空间和时间上以及分词的准确性三个方面进行比较。同时也对Lucene自带的相似度计算,用实验数据进行了统计分析,得到对文章的匹配度策略加入权重的参数,使得匹配度相对更准确。最后通过Heritrix与Lucene进行整合,实现了基于数码产品搜索引擎。