论文部分内容阅读
Internet技术的飞速发展,信息的发布与共享超越了时空的限制,人类进入一个前所未有的“信息爆炸”时代。互联网信息的极速膨胀提供给用户海量的信息资源的同时,也带来了寻找信息的困难。如果没有一个强有力的工具来帮助人们寻找、发掘有用的信息,人们就会被湮没在信息的海洋中,迷失方向。搜索引擎正是为了解决网络“信息迷航”问题而诞生的技术。它以一定的策略在因特网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务。它成为连接用户和互联网的最佳纽带,起到网络信息导航的作用。然而由于搜索引擎技术涉及数据库管理、信息检索、人工智能、自然语言处理、机器学习等诸多学科,各商业公司都不愿意将自己的搜索技术公布于众,这使得搜索引擎的应用,受到了某种程度的限制。然而,开源工具Lucene的出现,使得搜索引擎开发者可以简单、快捷、并且有针对性地实现相当强大的搜索功能。首先,本文针对Lucene中的中文分析器不符合汉语的习惯,造成检索查全率、查准率以及检索性能不够理想,实现基于标准中文词库和前向最大匹配算法的中文分析器。实验证明:该分析器的分词结果更符合汉语的习惯,并且在检索速度方面性能提升了2-4倍,在检索召回率方面性能提升了59%。其次,本文对用户查询接口进行改进,实现基于自然语言理解的查询接口。对用户提交的以自然语言表述的问题进行分词处理,去除相关辅助词,最后提取出核心词进行查询。为更准确对用户提交的自然语言进行分词,本文采用两种相结合的双向扫描的方法,再利用利用词句切分概率对歧义字段进行处理。另外,本文通过对网页相关度、PageRank算法[1]Lucene评分系统进行研究,提出将PageRank算法引入Lucene评分系统,让系统能够将更重要的网页更好的返回给用户。同时利用simhash算法[2]来计算返回页面之间的相似度,检测过滤相似网页。并且通过对排序算法的研究,改进原有快速排序。最后,完成自然语言搜索引擎原型系统的设计和实现。原型系统对上海交通大学网络资源进行整合。试验证明,改原型系统具有较好的性能和实用性,为后续相关的研究工作提供了良好的平台。