论文部分内容阅读
P2P是构建分布式体系结构的主流技术之一,在现实世界已经得到大量普及和应用。P2P存储作为P2P主要研究内容,更成为近年来研究热点之一,其目标是充分利用广域网环境中各种可能的边缘节点进行大规模的协作计算和存储共享。然而由于P2P系统具有开放性、自组织性和高度动态特性,使得对等存储系统运行过程中对用户存在潜在的数据安全性和可用性问题。P2P系统的大多数问题都可归结为数据管理方面的问题,如数据分布与放置、数据检索等,而且这些数据管理问题在后起的云计算系统、社交网络、信息物理融合系统等应用中依然存在。在云计算中,由于资源相对集中,对其管理也可以实现集约化。而P2P因为大量文件或者数据资源分散管理和存储,难以保障资源的可靠性。因此,研究数据管理问题成为解决对等存储系统容错性、可靠性以及节点数据分发和查找的关键。云存储是分布式存储技术与虚拟化技术结合的产物,是分布式存储技术的最新发展,对等技术在这种新的计算模式下依然具有旺盛的活力。在大规模对等存储系统中,对数据的管理成为整个系统运行生命周期中最核心的问题。本文从整个系统的角度分析和研究对等存储系统的数据管理,包括数据本身以及元数据的管理问题。前者主要涉及到数据副本的管理,而后者则和数据的分发、检索和查找相关,即元数据表示和组织。在以上研究基础上,设计和实现了一个半结构化的对等存储原型系统----石鼓(Scool)。本文在向对等存储系统构建技术进行系统、全面的总结基础之上,就对等存储数据管理问题展开了深入细致的研究,取得了若干创新成果。本文的主要贡献包括以下几方面:(1)设计了一种数据副本数量计算模型。对等存储系统中副本数据管理,涉及数据冗余策略、数据分发以及数据修复等问题。副本冗余是提高数据可用性和并发访问效率的关键技术。本文结合节点的在线率和资源访问的热度设计副本的数量,其绕开了对系统可用性非确定性的计算难点,并且根据数据资源访问的热点频度考虑副本的数量(网络中大量的访问总是针对当前最热门的话题),在提高资源可用性的同时提高数据资源的并发访问速度,减少数据副本一致性维护开销。这种方法根据节点所承担的角色不同采取不同的修复策略,有效的解决了由于P2P系统节点高动态变化所带来的不确定性影响,节省系统整体存储和计算资源,减少系统不同节点数据间一致性维护开销和副本维护带宽占用率,从而较好的适应于对等存储系统的性能需求。(2)提出了一种兴趣聚集的对等存储系统元数据管理机制。目前展开针对P2P存储系统元数据管理的研究还比较缺乏,本文基于半结构化P2P存储系统,设计了一个基于兴趣的Bloom Filter结构I-BSP2P。其使用基于兴趣聚集、分层的BloomFilters去定位和组织元数据,把对元数据的查询路由到不同的超级节点上。实验表明这种方法具有较好的自适应性和可扩展性,在查询时间、数据迁移损耗等指标上均取得了满意的结果。(3)设计和实现了一个基于体裁互文性的P2P信息检索模型。目前针对P2P信息检索的研究大多集中在资源搜索机制上面,而P2P存储系统是一个多结构数据存储系统,系统中有多个数据源,数据有各种表示形式,不同的用户对相同的现实世界的实体可能会使用不同的描述数据,有不同的表示,这样必然会产生语义异构的问题。本文首次以语言学中体裁互文性理论为基础,将体裁互文性概念拓展到信息空间任务上下文,解决文档体裁的自动识别问题;同时,用体裁表达文档目标及查询目标,解决传统方法中查询目标用体裁显式表达的困难。这对于P2P信息检索技术的实现和完善有一定借鉴意义,同时为语言学的体裁互文性理论研究提供新视野和方法。着重在三个方面开展研究:第一,任务上下文中体裁互文性基本概念、性质与度量研究,将体裁互文性概念拓展到任务上下文,对其性质进行定量研究,建立互文性强度的度量方法;第二,基于互文性的文档体裁识别研究,根据关系理论提出目的性体裁概念,建立文档体裁自动识别算法;第三,基于任务上下文的体裁查询意图预测遗传算法研究。实验表明本文所设计方法在召回率、平均准确率均值、Bpref这三个P2P信息检索典型评价指标上均取得了较好的效果。