【摘 要】
:
异构数据源集成技术得到了数据库、人工智能以及分布式计算等多个领域中研究人员的关注,其主要难点是解决数据之间复杂的语义异构性问题和基于网络的大规模数据处理问题。本文利用多个分布式计算节点协同工作,并行处理数据集成系统的查询来解决大规模数据处理问题。本文提出了一种XPS(XPlan-Pruning-Split)方法,XPlan是用于表示查询计划的XML文档格式,它能使查询计划分解,使多个分布式查询组件
【机 构】
:
清华大学计算机科学与技术系 北京 100084
论文部分内容阅读
异构数据源集成技术得到了数据库、人工智能以及分布式计算等多个领域中研究人员的关注,其主要难点是解决数据之间复杂的语义异构性问题和基于网络的大规模数据处理问题。本文利用多个分布式计算节点协同工作,并行处理数据集成系统的查询来解决大规模数据处理问题。本文提出了一种XPS(XPlan-Pruning-Split)方法,XPlan是用于表示查询计划的XML文档格式,它能使查询计划分解,使多个分布式查询组件之间的通信变得简单。Pruning表示查询裁剪,用户可以通过它来剪除查询中不必要的、重复的、相似的数据源,从而减少查询的工作量.Split表示查询划分,它通过将查询计划划分并分发到多个执行引擎上并行执行,从而缩短查询响应时间。本文最后通过实验和分析证明了XPS带来的性能提升。
其他文献
随着用户和应用需求的不断增长,存储系统在规模、体系结构等方面都出现了新的变化,系统正朝着大规模、复杂化的方向飞速发展,随之而来的是为了满足各种存储需求而引起的管理难度。服务质量(QoS)是评估计算机和网络系统的综合指标体系,存储系统服务质量(QOSS)包括性能、容量、可靠性,可用性、安全性、可扩展性等与存储应用相关的指标。有效的存储系统服务质量的实施机制是解决存储规模与系统管理之间矛盾的途径。在视
中国加入WTO后,贸易摩擦不断增多,建立产业损害预警机制成为各级政府主管部门的重要工作之一。产业损害预警系统是综合利用数据仓库和数据挖掘技术,发现可能遭受倾销或反倾销申述的商品,为产业安全提供决策支持。系统建设中为保护财政投入,要求既要共享中央部委的数据,又要共享其分析能力。本文基于Web服务和XML相关技术扩展,面向商务智能分析应用,提出了数据服务(Data Services)的概念,并基于数据
本文基于统计测试的马尔可夫使用模型对软件可靠性评估提出了一种有效的估计方法。该方法利用重要抽样技术在保证可靠性估计无偏性条件下,采用交叉熵度量操作剖面与零方差抽样分布之间的差异,通过启发式迭代过程调整各个状态之间转移概率来修正测试剖面。从理论上证明了利用修正测试剖面测试估计的可靠性是方差为零的无偏估计。最后给出了软件可靠性估计的最优测试剖面生成的启发式迭代算法,仿真结果表明该方法较模拟退火算法能明
在数字图书馆和其他机构中存储着海量的数字资源。信息技术的迅速发展使得读取数字资源的软硬件设备很快就面临过时和淘汰的危险,然而很多数字信息具有巨大的商业或学术价值,因此,数字资源的长期存取问题迫在眉睫。目前,有很多工具和系统能够解决整个长期保存过程中的部分问题,但是这些工具和系统大多是独立的。本文描述了一个灵活而综合的,有效利用现有的工具和服务的数字资源长期保存系统——AOMS。AOMS认为,在长期
随着全球计算机系统大量而广泛的使用,对环境日益产生了一些负面影响。绿色计算(Green Computing)作为一种新的计算模式和技术,通过消除计算机系统的环境不友好方面,实现节能、环保和节约的目标。通过与绿色化学的比较研究,我们采取了一种更加统一和抽象的方式定义绿色计算的概念,并探讨了其主要研究内容,从而明确了绿色计算的界限和范围,理顺了相关领域的研究任务和关系。然后,提出了绿色计算的一些基本思
生产线集成框架能够集成软件工具、软件构件、软件服务,以及相应的协同机制,从而形成软件生产线。本文在分析插件体系结构的基础上,提出了一种软件生产线集成框架的平台无关模型,并基于该模型构造了一条监控生产线。
演化性是软件两大特性(构造性和演化性)之一,软件演化分为静态演化和动态演化,静态演化是动态演化的基础。本文以变化为出发点,基于软件生命周期,给出了软件变化实施的跟踪模型,阐明了需求变化信息的传播和实施过程。进而,依据该过程与软件生产过程的相似性,提出了一个基于软件生成过程的静态演化框架,该框架将软件变化过程中所涉及到的场景、对象、体系结构等实体进行了全面的关联和融合,为静态演化乃至动态演化的深层研
三值逻辑光学运算器结构设计的随意性给硬件实现带来了诸多困难,阻碍了三值光计算机的研制进程,而注重于物理实现的降值设计理论以及相应的降值设计规范从理论上彻底地解决了这个问题,它使得三值逻辑光学运算器的结构设计规范化和程式化。但是,依据降值设计规范设计出的三值逻辑光学运算器在结构上存在着进一步化简的可能,这可通过合并运算基元来实现。本文通过一个设计实例证实了这种可能性,并对相应的结构化简方法做初步的探
Mashup是一种数据集成技术,它通过汇聚多个信息源的信息来创建新的Web应用,具有Web2.0的特点。本文系统地介绍了这一崭新领域的理论研究和应用进展情况,并对Mashup中资源分类及获取、Mashup工具、资源匹配、安全、社会性等问题的研究现状进行分析和点评,最后对未来研究方向和工作进行展望。
针对区间算法计算量较大,不适用于求解大规模问题的不足,本文通过将区间算法与多分裂方法相结合,提出了一种求解线性互补问题的区间并行多分裂算法(RPIMM,RelaxedParallel Interval Multisplitting Methods),并给出了具体的算法流程。该算法把原问题转化为一系列规模较小的子问题,通过并行计算来提高计算效率。最后通过数值实例说明该方法可有效求解线性互补问题,并且