论文部分内容阅读
随着人类社会进入“信息时代”,信息记录的形式已由纸张演变为电子形式,而对于信息的检索也由计算机代替了人工方式。在存储、检索和更新结构化数据时,传统的关系数据库(RDBMS)作为一种成熟的技术足以胜任。但是随着非结构化数据的日益膨胀,特别是占所有信息量的比重增加,如何有效的管理非结构化数据已成为信息检索领域的一个重要课题。在关系数据库处理非结构化数据比较低效的情况下,全文检索技术应运而生。全文检索技术针对非结构化数据中的文本数据,通过精心设计的文本数据存储结构,提供高效、多样化的文本数据检索界面和更新界面。
本文在互关联后继树这一全文检索模型现有的研究基础上,对其优缺点进行了分析。对如何进一步提高互关联后继树的文本检索速度和解决在处理海量文本数据时存储和检索效率下降的问题上做出了努力。本文的重点和取得的创新性成果主要包含以下几个方面:
1)分析全文检索的一些主流模型的索引结构、检索算法和各自的优缺点,并对它们的适用性进行了探讨。
2)介绍互关联后继树模型的基本概念、索引创建和检索算法,包括其索引结构,精简的互关联后继树模型,三元互关联后继树模型和基于区间的检索算法。
3)提出并实现了后继字符和后继编号都有序的双排序互关联后继树模型。借助于另一种全文索引模型PAT数组来创建双排序互关联后继树。检索算法利用后继字符和后继编号都升序排列的特点,使用折半查找代替原有的顺序查找,大大优化了检索算法的时间复杂度。
4)将原限于字索引领域的互关联后继树模型扩展到词领域。互关联后继树在处理海量的原始文本数据时,需要用更多的字节来保存后继编号。这使索引的膨胀比增加,索引创建过程和检索过程都因为频繁的内外存交换而变得低效。本文选择按词来组织索引结构来解决这一问题。通过将互关联后继树的特点和分词算法相结合,对词表预先建立索引,去除了分词失败时需要多次回溯这一缺陷。显著提高了索引的创建效率和检索效率,同时大大降低了索引的膨胀比。并成功地将这一创新性成果应用到了上海电信黄页搜索引擎系统中。