面向数据空间的异构数据索引方法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:hscyg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前,个人和组织的信息呈现急剧增长趋势且非结构化数据所占比重在不断的增加,这些属于某个主体的海量、分布、异构和共存的数据构成了一个数据空间,如何为用户提供高效、便捷和多样化的搜索查询服务是数据空间面临的巨大挑战。然而,为数据空间中异构数据构建高效的索引方法是解决这一问题的基础。因此,研究数据空间中异构数据索引方法具有重要意义。数据管理研究社区对索引方法已经存在很多的研究。过去,对索引方法的研究通常是基于单一数据格式和查询方式,例如,搜索引擎中的无结构化数据格式和关键词查询和关系数据库上的关系表和SQL查询。然而,数据空间中的数据具有多数据源、异构等特点,它可能包含结构化、半结构化和无结构化等多种数据格式,另外,由于数据空间的Pay-as-you-go特性使得需要提供从关键字查询到结构化查询等多样化搜索查询服务,例如,起初由于抽取信息较弱和数据源之间没有建立语义关联,可以只提供基本的关键字搜索服务,随着时间的推移用户和系统将会逐渐的建立更多的模式、语义关联信息,系统也将能够支持更加丰富的查询方式。因此,与传统的索引方法不同,数据空间中的索引方法需要能够索引多种格式数据,同时支持关键字查询和结构化查询等多种查询方式。通过对现有数据模型和查询分析,本文使用iMeMex数据模型作为数据空间的数据模型且给出了关键字查询、谓词查询和路径查询三种查询方式的定义,在此基础上提出了一种新的索引方法来提高对数据空间中异构数据的搜索查询效率,本文称之为EIBH混合索引方法。新的索引方法由扩展的倒排列表和两个辅助索引构成,通过扩展倒排列表表的关键字列和链表节点信息索引资源视图来支持三种查询和提高查询处理效率;利用两个辅助索引来解决索引连接效率低下问题。实验结果表明:该索引方法能够有效、可行的解决数据空间中异构数据索引和查询效率问题。
其他文献
在IT系统中,规则引擎作为一种灵活的组件能够将业务规则从硬代码模块中剥离出来,实现了业务规则的单独创建与维护。业务规则一般是指与业务相关的规章制度、操作规范、行业标准
对于竞争紧张而激烈的现代社会来说,数据信息正以指数级的速度增长着。在美国911事件中,由于关键数据丢失而破产的企业不计其数。在日常工作中,来自人为操作失误、自然环境破坏
随着计算机网络的迅速发展,我们可以获得巨大的图像资源,同时也面临着计算机视觉研究的巨大挑战,即如何找到有效的方法来自动标注图像,减少手工标注所消耗的人力资源和人为倾向性
近年来,互联网信息的爆炸式增长给了统计机器翻译新的契机,众多研究团体和商业机构开始从互联网上获取大规模的双语语料。机器翻译模型的优劣与语料的规模和质量息息相关,从互联
自然景观模拟是虚拟仿真研究领域中一个重要的研究内容。众多自然景观中,喷泉、火焰、烟雾、降雨、河流、瀑布等都具有不规则几何状态、动态性和随机性,这些特殊自然景观的模型
随着汽车工业的发展和人们生活水平的提高,人均汽车拥有率逐渐提高,车流量不断增大,导致交通事故频发。如果能在驾驶过程中及时检测交通标志并将标志上的信息反馈给驾驶员,则可以
医学图像配准是针对两个图像或体数据,找到一个几何变换让一个图像上的点映射到另一个图像上,使两图像达到空间位置上的对齐。随着医学研究的深入,单一模态下的图像信息已经
肝脏解剖结构复杂,且存在门静脉、肝静脉、肝动脉、胆管等四套管道系统,变异较为常见,因此对肝脏肿瘤的手术治疗难度大,风险高。  随着CT、MRI等造影技术的完善,及三维技术
随着智能电网的快速发展,电力行业已经进入了“大数据时代”。变压器是电网平稳运行的关键设备,变压器故障诊断方法能够保证电力系统平稳运行。在电力系统中,利用变压器在线监测技术可以及时发现其故障类型。但是由于监测的数量点多,且在一段时间内会多次获取监测数据,因此,其数据量规模急剧增长。通过对数据挖掘算法并行化,实现对海量的电力变压器监测数据快速分析。Spark是分布式内存计算框架,具有轻量级快速处理、兼
基于脑机接口技术的动物机器人,是以活体动物作为运动载体,将外部的控制指令直接施加于动物大脑,实现对动物感受和行为的干预控制,从而构建的新型动物-机器混合系统。受限于动物