互关联后继树模型扩展研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:lijinjie1981
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类社会进入“信息时代”,信息记录的形式已由纸张演变为电子形式,而对于信息的检索也由计算机代替了人工方式。在存储、检索和更新结构化数据时,传统的关系数据库(RDBMS)作为一种成熟的技术足以胜任。但是随着非结构化数据的日益膨胀,特别是占所有信息量的比重增加,如何有效的管理非结构化数据已成为信息检索领域的一个重要课题。在关系数据库处理非结构化数据比较低效的情况下,全文检索技术应运而生。全文检索技术针对非结构化数据中的文本数据,通过精心设计的文本数据存储结构,提供高效、多样化的文本数据检索界面和更新界面。 本文在互关联后继树这一全文检索模型现有的研究基础上,对其优缺点进行了分析。对如何进一步提高互关联后继树的文本检索速度和解决在处理海量文本数据时存储和检索效率下降的问题上做出了努力。本文的重点和取得的创新性成果主要包含以下几个方面: 1)分析全文检索的一些主流模型的索引结构、检索算法和各自的优缺点,并对它们的适用性进行了探讨。 2)介绍互关联后继树模型的基本概念、索引创建和检索算法,包括其索引结构,精简的互关联后继树模型,三元互关联后继树模型和基于区间的检索算法。 3)提出并实现了后继字符和后继编号都有序的双排序互关联后继树模型。借助于另一种全文索引模型PAT数组来创建双排序互关联后继树。检索算法利用后继字符和后继编号都升序排列的特点,使用折半查找代替原有的顺序查找,大大优化了检索算法的时间复杂度。 4)将原限于字索引领域的互关联后继树模型扩展到词领域。互关联后继树在处理海量的原始文本数据时,需要用更多的字节来保存后继编号。这使索引的膨胀比增加,索引创建过程和检索过程都因为频繁的内外存交换而变得低效。本文选择按词来组织索引结构来解决这一问题。通过将互关联后继树的特点和分词算法相结合,对词表预先建立索引,去除了分词失败时需要多次回溯这一缺陷。显著提高了索引的创建效率和检索效率,同时大大降低了索引的膨胀比。并成功地将这一创新性成果应用到了上海电信黄页搜索引擎系统中。
其他文献
门限代理重签名是将门限化的秘密分享技术与代理重签名体制相结合,利用秘密分享技术的优势来弥补代理重签名体制中的不足。在代理重签名体制中,它是依靠一个半可信任的代理,
近年来,个性化主动信息服务的研究取得了很大的进展。而在个性化主动信息服务中最重要的服务就是个性化信息推荐。作为人工智能的一个重要研究领域,数据挖掘近年来有了广泛的应
由于互联网信息的飞速发展,Web中蕴含了海量的信息供人们使用,其中Deep Web数据库是对用户不可见的,其中涵盖的信息只能通过特定的查询接口来查询获得。为了充分利用Deep Web
大型全纤维曲轴是船用发动机等重型机械的主要组成部分,也是其中尺寸最大的部件,它的形状结构和尺寸也在很大程度上影响并决定着发动机乃至整个船舶的整体尺寸。曲轴在船用发
粗糙集理论是一种处理含糊和不确定性问题的新型数据分析方法,以其为理论基础的数据处理技术得到深刻关注和不断发展。信息检索致力于寻求准确、高效、智能的信息组织与存取方
说话人识别技术因其特有的方便性、经济性、准确性,安全性等方面的的优势,在生物特征识别领域具有广泛的应用前景。目前,随着说话人识别技术研究的不断深入,已有的系统在理想
本文分析了目前敏捷动态联盟国内外的研究现状及意义,分析了分布式系统结构和Web服务的体系结构及技术。根据敏捷动态联盟的特性、组建原则及过程,总结出动态联盟的体系结构,
无线局域网是无线通信领域发展最有前景的领域,但由于其使用的通信媒体具有开放性的特点,使得它更容易遭受各种攻击。建立与完善一种可靠的面向无线网的安全标准成为亟待解决
随着信息技术的快速发展,特别是Internet的兴起,全球信息资源数量增长迅猛。但由于现行信息检索系统所采用的信息资源组织技术(如分类法和主题法)不能很好地揭示信息中所蕴含
电信业务运营支撑系统(Business Operation Support System,BOSS)涵盖一系列的子系统,这些子系统之间需要进行大量的功能交互和数据交互。因此如何保证这些系统间接口的稳定以