论文部分内容阅读
面对网络上海量的信息,搜索引擎已经成为我们获取网络信息的主要入口。目前的搜索引擎主要采用基于关键词的匹配来获取Web上的相关信息。但是,一方面Web上信息的巨大数量及其丰富多样的特点使得采用该方式将得到大量与需求无关的信息,另一方面,基于关键词匹配的检索无法对检索的语意充分表达也造成了搜索引擎对用户查询需求的“误解”,进一步影响了使用搜索引擎查询信息的准确率。
评价一个搜索引擎的两个指标是查全率(Recall)和查准率(Precision)。而对于当前的搜索引擎来说,面对网络中海量的信息,每一次搜索所返回的信息量已经通常都会非常的巨大,但是返回信息与用户的期望之间的查准率却无法尽如人意。本文从可以提高这两个指标为目标,以可以提高查找信息准备的聚焦搜索为基础,设计和实现了一个完整的语意检索模型。
首先,应用当前的聚焦爬虫、专业词库等技术,对信息有针对性的采集及过滤,从而在一定程度保证了所采集信息相关度的相对集中。
然后,利用已采集信息中较为典型的数据作为分析的数据源,获取一定语境之下词语同现的基本数据,构建同现二维表,并通过相应的处理来优化二维关系表。
在进行信息的检索时,主要利用相关二维表所体现的词语之间的关系,从而使搜索引擎具备一定的理解能力,从语义上进行信息的查询,提高搜索引擎查询的准备度。
本文通过对Apache全文检索系统Lucene源码的剖析和实践,理解Lucene的系统组织结构、基本数据类型、索引内存结构以及索引数据库的文件结构;在对Lucene重要类UML类图进行分析后,深刻理解其索引过程以及索引方式,掌握了索权重的控制和索引优化的方法与增量索引方法,实现了领域搜索引擎的检索部分功能。
最后,本文通过以上述方法构建的系统进行性能分析,得到了一个较好的结果。