论文部分内容阅读
搜索引擎技术的核心是全文检索,而全文索引的显著特点就是提供对非结构化海量数据的管理和快速查询。全文索引创建的空间效率(包括最终索引空间和创建过程中需要的辅助空间)和索引建好后的查询速度是全文索引研究领域的两大热点。
随着信息时代的数据,特别是非结构化数据的爆增,人类从中获取信息的需求也越来越大,从全文中获得信息,是一个传统的关系型数据库系统(RDBMS)解决起来比较低效的问题。结合全文检索技术的搜索引擎技术应运而生,它的优势在于专门为了解决全文数据而设计的高效的存储结构和高速的查询速度以及多种的查询接口。在发展中,搜索引擎的目标是能像传统的数据库一样提供方便有效的功能。因此,搜索引擎是该技术的方向和最终目标。本文从搜索引擎的工作原理及其实现技术进行分析,从中可以了解限制搜索引擎性能改善用户体验的因素到底有哪些。由于互关联后继树作为一种优秀的全文模型在全文检索领域发挥着越来越重要的作用,所以本文虽然着力于搜索引擎的核心技术与应用的研究但互关联后继树全文模型贯穿始终几乎渗透在所有关键技术之内。互关联后继树全文模型与搜索引擎技术的相互贯穿与结合,使其在搜索领域发展出属于自己的一套技术与理论,中国电信黄页信息检索系统的开发,使得互关联后继树全文模型走出纯理论框架范畴,在实际应用环境中发挥其重要的作用。