论文部分内容阅读
当前,个人和组织的信息呈现急剧增长趋势且非结构化数据所占比重在不断的增加,这些属于某个主体的海量、分布、异构和共存的数据构成了一个数据空间,如何为用户提供高效、便捷和多样化的搜索查询服务是数据空间面临的巨大挑战。然而,为数据空间中异构数据构建高效的索引方法是解决这一问题的基础。因此,研究数据空间中异构数据索引方法具有重要意义。数据管理研究社区对索引方法已经存在很多的研究。过去,对索引方法的研究通常是基于单一数据格式和查询方式,例如,搜索引擎中的无结构化数据格式和关键词查询和关系数据库上的关系表和SQL查询。然而,数据空间中的数据具有多数据源、异构等特点,它可能包含结构化、半结构化和无结构化等多种数据格式,另外,由于数据空间的Pay-as-you-go特性使得需要提供从关键字查询到结构化查询等多样化搜索查询服务,例如,起初由于抽取信息较弱和数据源之间没有建立语义关联,可以只提供基本的关键字搜索服务,随着时间的推移用户和系统将会逐渐的建立更多的模式、语义关联信息,系统也将能够支持更加丰富的查询方式。因此,与传统的索引方法不同,数据空间中的索引方法需要能够索引多种格式数据,同时支持关键字查询和结构化查询等多种查询方式。通过对现有数据模型和查询分析,本文使用iMeMex数据模型作为数据空间的数据模型且给出了关键字查询、谓词查询和路径查询三种查询方式的定义,在此基础上提出了一种新的索引方法来提高对数据空间中异构数据的搜索查询效率,本文称之为EIBH混合索引方法。新的索引方法由扩展的倒排列表和两个辅助索引构成,通过扩展倒排列表表的关键字列和链表节点信息索引资源视图来支持三种查询和提高查询处理效率;利用两个辅助索引来解决索引连接效率低下问题。实验结果表明:该索引方法能够有效、可行的解决数据空间中异构数据索引和查询效率问题。