海量数据组织中的索引机制研究与实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:MM_8023
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现有的数据组织系统中的索引机制大多是基于传统数据组织的通用索引,存在索引数据规模过大、索引时间过长、索引数据类别单一等诸多问题。这些问题导致海量数据检索在查全率、查准率和查询时间上无法满足用户需求。为了解决这些问题,提高信息利用率,针对海量非结构化数据设计一种能够提高性能和数据检索质量的新型索引机制成为重要的研究问题。首先构造了一种海量数据组织原型系统。该系统满足了海量数据组织管理的自动化、统一接口、模式提取、认知提取和语义集成等需求。该系统采用了信息预处理技术、信息可扩展存储技术、信息再组织技术和信息检索技术。在这个海量数据组织系统的平台下,可以进行相关大规模数据处理工作,如信息索引等。其次给出了混合索引机制及其相应的算法流程。混合索引机制采用信息矩阵模型作为索引信息的数据模型。该模型采取多个元数据来表征信息实体。这种信息数据模型在降低数据规模的同时,增强了信息内部特征的表示。这种混合索引机制的索引数据是信息的元数据。基于元数据的索引能提供比基于内容的索引更为精确和语义更强的索引。混合索引机制采取的索引存储模型主要有树、哈希和倒排文件三种方式。树索引存储模式主要是建立内存索引,作为检索的最主要的入口。哈希索引存储模式主要是判断索引数据是否存在,建立索引数据的位图索引。倒排文件存储模式主要是建立磁盘索引,同时提供基于内容的全文索引来提供扩展接口。各种存储模型在索引过程中共同作用。最后对于混合索引机制从功能和性能两个方面进行了测试和分析。实验结果表明,采用了该索引机制的海量数据组织系统的内存索引数据容量只有原始数据的4%,磁盘索引数据只有原始数据的1/3,索引时间比同种应用平均降低了10%。数据结果验证了该索引机制在海量数据组织中具备较强的实用性。
其他文献
传统冯·诺依曼体系结构中,计算资源与存储资源(包括物理存储设备及保存在其上的系统数据和用户数据等)静态绑定在一起,这种相对独立的状态一方面严重影响了计算实体内部资源
随着软件规模的不断扩大,软件发生错误的可能性也增大,如何保证软件的质量和可靠性成为人们非常重视的问题。软件测试是保证软件质量和可靠性的必要手段,软件测试研究领域的
现今信息化如此发达,网络中的文献发表和获取显得方便快捷,文献大量发表导致其形成爆炸式增长,在众多文献中必会存在潜在信息。也许有许多科研工作者或意欲投身于科研的人想
近年来,随着生物识别技术在安防领域应用的迅速发展,人脸识别技术作为生物识别技术中一项重要技术,由于其自然、友好、易被用户接受等优点也越来越受到关注,逐渐被应用于门禁
组卷问题是一个在一定约束条件下的多目标参数优化问题,采用传统的数学方法求解十分困难,自动组卷的效率和质量完全取决于试题库设计及其抽题算法的设计,目前已出现多种算法
森林动态变化具有时间跨度大和空间尺度大的特点,正是这两个因素使得林业研究面临着非常大的难题。而数字林业应用计算机图形学技术和林业科学知识,构建复杂的森林对象,表达
随着无线通信技术的不断进步以及3GPP长期演进(Long Term Evolution, LTE)技术近年来的普及应用,作为接收机关键技术的信道估计技术,也得到了人们的广泛关注与研究。信道估计
随着计算机硬件平台运算能力的不断提升,计算机软件的规模及复杂度日益增长,同时软件安全性问题也日益突出。如何解决软件安全性,已然成为目前计算机工业领域与研究领域关注的热
虚拟专用网VPN是网络互联技术和通信需求迅猛发展的产物。互联网技术的快速发展及其应用领域的不断推广,使得许多部门越来越多地放弃建设昂贵的专用物理连接设备架设专用网络
随着Internet和信息技术的飞速发展,个性化推荐作为一种崭新的智能信息服务方式,根据用户提出的明确要求,或通过对用户个性、习惯、偏好的分析,准确地向用户提供感兴趣的信息