论文部分内容阅读
随着互联网(Internet)的普及以及数据管理技术的发展,大量互联网上的节点需要相互共享数据或者服务;另一方面,数据采集技术的成熟和硬件成本的降低,使得传感器网络(sensor network)在各种监控应用中扮演了越来越重要的角色。大量节点间数据或服务共享和传感器网络数据传输与处理这两类应用都具有如下两个特点: ·每个节点既可以是客户机(服务消费者)也可以是服务器(服务提供者),或者同时扮演客户机和服务器的角色。 ·一个节点可以根据需要在应用层与任意一个其它节点建立连接或者进行通讯。 具有这些特性的系统通常被抽象为具有“对等计算”(peer-to-peer,或P2P)模型的系统。 本文研究对等计算环境下的数据管理问题。主要根据对等计算环境下,单个节点的自主性、节点间的对等性、系统的动态性和大规模分布性,在一个统一的查询处理系统框架CON-QuerP下,探索在对等计算系统中提供复杂查询功能所牵涉到的数据和查询路由、定位与查找、查询处理、索引、数据放置等技术问题。本文的主要贡献有如下四个方面: 1.在详细分析了现有基于对等计算模型的文件共享和数据管理系统以及相关技术与研究进展的基础上,提出了一个基于非结构化(unstructured)对等计算模型的查询系统框架CON-QuerP。该框架底层基于非结构化对等计算平台,每个节点利用后端的关系数据库查询功能,并在此基础上提供跨节点的查询处理功能。和现有其它系统不同,该框架提供了一种“协作视图”(collaborative view)机制,以及相应的基于分布式散列表(distributed hash table,或DHT)的资源查找和定位机制CON,以使得系统能够利用不同粒度的视图(view),在协作的环境下提供比其它系统更高的查询效率。2.在分析了当}iiJ’己经存在的人{.川卜结构化对等乙}·幼‘1冈络搜索技术的从础},., 研究了一种利用“小世界现象”(small一world phenomena)的搜索技术 SHIN()V。该技术的核心是基于相似度的启发式搜索和访问节点(node一七卜 visit,或NOV)控制技术的结合。算法以查询与节点提供的共享数据的相 似程度决定通过该节点查询的广播程度,摒弃了传统的基于查询生存时间 (t ime一to一llve,或TTL)的控制手段,代之以基于访问节点个数对搜索的 规模进行控制。在“对等计算网络也具有‘小世界现象”,的假设下,该 搜索算法能够比传统的广度优先搜索‘breadth一first Search,或BFs)更有 优势。模拟实验表明,在对等计算环境下节点的自主性和环境的动态性增 强,即搜索对象主题增加、搜索主题不确定时,该算法的优势更为明显。3.引入了基于聚类的查询处理(elustering一based query answering,或CBQA) 的新概念,它概括了最近邻搜索和聚类问题。提出了一种在对等计算环境 下处理这类查询的方法,并证明了该方法在一定条件下能够获得和集中式环 境下相同的结果。针对最近邻搜索、基于距离的聚类和基于密度的聚类, 分别构造了三个不同的算法,证明了它们能够获得和集中式环境下一致的结 果,并分析了它们通讯和计算代价。这些算法能够和SHINOV搜索技术相 结合,被集成到查询处理框架C口尽Q。er尸中,作为底层通讯、路由技术对 上层查询处理模块发出的对象查找请求作出支持。4.针对类SQL查询处理,探索了基于协商(nego七iation)的物化视图 (ma;erialized view)选择技术。在具有协作视图机制的CO.尽QuerP框 架下,提出了一种考虑网络传输的代价模型,用于衡量不同查询计划的 代价。在对等计算环境下,一个查询计划的代价可以以较小的代价利用 测试进行估算。结合代价模型,利用CON技术,查询节点(查询者(re- quester))和协调节点(协调者(eoordinator))通过协商确定物化视图的逻 辑表达与参与维护的节点。详细探讨了协作视图机制的实现细节,包括代价 估算、查询处理、和节点间协商协议,并研究了视图维护和数据更新的实现 问题。仿真和真实实验表明,该方法能够确定较优的物化视图放置策略, 其对查询的支持效果优于基于缓存的方法。当单个节点贡献非常有限的存储 资源的情况下,该方法的优势更为明显。 总之,本文详细介绍了一个完整的基于对等计算的查询系统CO.V.QuerP的框架设计、实现技术和测试结果。本文工作建立在对当前己有技术的详尽分析以及理论分析和大量的实验测试的基础上。实验和分析表明,和当前其他对等计算环境下的查询系统相比,该系统在查询效率和资源利用率上具有优势。