论文部分内容阅读
现在的通用搜索引擎对信息采集方面由于网络上的信息量越来越多,想要找到更加详尽、精准的主题信息成为越来越困难的技术。随着面向主题搜索引擎的面世,使得这类情况有了良好的方法解决。面向主题搜索引擎在网络蜘蛛不断的检索时会不时的统计出正在检索的页面内容与所需题目的匹配值,用这个值来判断页面的题目匹配值,所以面向主题搜索引擎能够完成的规避掉很多与题目不匹配的噪声结果,只收集网络内和指定的主题所匹配的相关网页内容。综上,面向主题搜索引擎的速率、精准率和反馈率都明显优于通用的搜索引擎。由于检索出的信息数量大幅优化,面向主题搜索引擎的相关维护需求也随之减少,完全优于通用搜索引擎的系统的相关维护需求。此篇文章会先陈述面向主题检索程序的科研价值,之后会讲解通篇搜索Lucene架构下的面向主题检索程序的三个关键的重要技术:索引技术;搜索技术;分词技术。我们用面向主题搜索引擎与一般的搜索引擎的技术相互对比,以此来更加深入的探讨了面向主题搜索引擎所相关的若干关键的技术。重点研究角度参考如下三点:(1)探讨了通用搜索引擎运用的HITS算法策略,容易造成通道不够及主题漂移的现象,所以要优化此算法,可以达到规避主题产生相关漂移的问题,采用了对超链接的预判权重值优化值,达到并提高了对通道链接识别的精准性。(2)通用引擎在主题匹配度的识别策略中采用了向量空间的模型计算法,在判别时会提前认为文档内各个词条是彼此独立的,这当然和真实情况不符合,使之不能精准识别与需要主题的匹配度。此篇文章对此计算方法进行了相应优化使得文中每个相关的词条,根据其相关性授予不同的权重值,之后在主题匹配度识别的计算方法中考虑此权重使得计算方法得到精准的优化。(3)此篇文章设想了一种全新的结果去重计策并经过很多实验数据,对比数据可知新的计算方法在结果上取得了更加适合的优化结果。采用Java+Lucene的开放框架,优化后的计算方法来构建,得到了可在Tomcat服务器上执行的面向主题搜索引擎的系统。最后,展示了有关的运行,证明优化的计算方法有更优秀的效率,根据最终的数据结果表明,该优化计算方法具有适用能力以及应用能力。