论文部分内容阅读
近年来,随着越来越多的网络资源发布在Internet上,分布式计算成为了业界研究与应用的主流模式。在分布式计算模型中,计算任务是由分布在网络上的多台计算机协作完成的。为了实现跨平台和跨系统的协作,以及扩展不同供应商提供的应用程序之间的互操作能力,基于分布式计算平台的服务计算模式应运而生。与此同时,随着社会信息化的快速发展,数据规模呈现出爆炸式增长。在此背景下,数据密集型计算成为工业界和学术界同时提出的研究问题。由于面向服务计算的发展和Web服务技术在功能封装和集成上的巨大成功,工业界和学术界普遍借鉴Web服务和面向服务架构来实现数据密集型应用的开发、运行和管理。然而,随着数据规模的急剧增长,运行效率低等诸多问题逐渐成为了面向数据密集型应用的服务计算模式发展的障碍之一。研究如何将并行化计算与Web服务的组合流程相结合对于有效提高数据密集型应用的流程执行效率具有重要意义。本文首先针对数据密集型应用研究如何使用户以最低成本获得响应最快、吞吐量最大的组合服务。论文提出了组合服务收益比(BROCS)的概念和模型。基于该模型,我们推导得出并行度计算算法。通过确定并行服务的并行度,保证用户在可接受的响应时间和花费成本下获得最大的数据处理量。接着,针对组合服务中同步模式中可能出现的时间和资源浪费的问题,论文研究了如何对Web服务组合进行优化。论文将面向数据密集型应用的Web服务划分为I/O密集型服务和CPU密集型服务两类,并据此提出了I/O操作率的概念和优化Web组合服务的并行策略。其优化的基本原则是使I/O操作尽量与CPU计算操作重叠,一方面使CPU在I/O操作等待时不要空闲,另一方面让CPU在I/O调度过程中尽量花费最少的时间。最后,本文利用新浪微博官方数据通过仿真实验验证了上述组合服务收益比(BROCS)模型的有效性。