论文部分内容阅读
随着云计算、云存储时代的到来,信息存储系统中数据规模正在不断扩大,信息的存储、检索、分析和处理也变得越来越困难。在海量存储系统中想要高效的查找和管理文件,必须依赖文件元数据完成一些复杂查询。文件系统的多维元数据信息,如文件大小、文件类型、访问时间和修改时间等,是存储系统中非常重要的信息。通过分析并利用多维元数据之间存在的关联特征,能够更好的对其进行管理,并支持高效复杂的元数据查询。在海量存储系统中,关联特征是指文件数据在属性空间中的聚集效果,在一定程度上反映了文件数据之间的相关性。目前在大多数元数据管理系统中基于关联性特征的分析主要集中在单一的时间或空间维度上,缺少针对多维度属性特征的分析和研究,并且对单一维度的关联特征分析造成各维度之间结合不够紧密,使得这些系统无法有效的支持复杂元数据查询。因此采用简单、快速的方法同时对元数据的多维属性进行分析、感知和识别,并利用多维度之间的关联特征进行元数据的管理,将直接影响元数据的访问效率。利用元数据之间多维度的关联特征,实现了一个基于关联特征组织元数据的查询系统。该系统以局部灵敏哈希算法为基础,高效组织并建立元数据索引,通过一定方法将具有关联特征的元数据信息聚集至同一分组中,在查询到来时能够在极短时间内定位到其相关性较高的分组中并预取结果,以提供快速、准确、可扩展的复杂元数据查询服务。实验结果表明,利用关联特征组织并实现的元数据查询系统能够快速、准确的响应用户提出的复杂元数据查询请求,为海量存储系统元数据访问提供了多种查询支持,并且具有良好的可扩展性。