论文部分内容阅读
欧洲核子研究中心的大型强子对撞实验LHC标志着高能物理研究的一个新的TeV粒子碰撞能量的时代到来。ALICE实验是LHC中四个主要强子对撞实验之一,主要致力于研究超相对论性能区下重离子碰撞中形成的热密核物质。ALICE实验中产生的大量的数据不仅来之于被各类探测器在粒子碰撞过程中捕获的原始数据,也包含分析原始数据和蒙特卡洛数据产生的分析结果。本文围绕ALICE实验处理大量数据的在线和离线数据系统中存在的问题和挑战展开研究。ALICE实验中,在线数据系统叫DAQ,用于处理从各类探测器到永久存储设备的数据流的归档;离线数据系统叫AliEn,用于提供对于原始数据的模拟、重建、分析的计算环境和各类数据的存储环境。对于这两个数据系统,它们面临问题和挑战是不同的。 AliEn面临的问题和挑战主要集中在AliEn服务的安全以及分布在全世界各地的存储的访问控制机制。AliEn是一个基于web服务的网格计算框架。Web服务采用了基于XML的技术,允许不同的应用程序之间相互通信。在AliEn系统的web服务根据功能和角色可分为三大类:在每一个虚拟组织中部署一套中央服务;在该虚拟组织中的各个计算中心部署站点服务;在计算中心的每个计算节点上自动部署作业代理服务。为了保证AliEn系统中这些web服务的安全,一套安全认证框架被设计用于AliEn系统中,它能保证AliEn服务之间、AliEn服务与其他系统之间的通信安全。该安全认证框架既能识别X.509证书、X.509代理证书进行身份认证以保证网格平台的互操作性,又能通过生成访问控制策略以达到对AliEn服务的授权访问。 AliEn系统的文件系统是基于一个中央文件目录,连同一组分布式的存储系统。这个文件系统还可以注册链接到外部数据源。本论文分析了AliEn系统中文件目录的访问控制的弱点,如欺诈或未经授权对文件进行更改,提出了一套更合理更安全的设计方案。这套设计方案叫LFN预定表以跟踪文件进入或离开文件目录状态下访问授权情况。由于针对基于xrootd协议的存储系统设计的原始的访问信封的简化,实现了计算性能的提高及减少了原通信凭证一半的大小。通过从底层存储系统扩展具有签署状态信息的访问协议,中央文件目录可以接收到关于文件的大小、校验方面的可靠信息,该访问协议不再依赖于对客户的信任。LFN预定表符合事务的原子性和一致性,并且允许负责任的、真实的、可追踪的文件操作。 DAQ面临的问题和挑战集中在能更好地理解和维护DAQ源代码。DAQ系统的源代码大部分用C语言编写,是一个非常庞大复杂的系统,因此理解DAQ源代码的结构是非常困难的事情。为了更好地理解源代码的结构,很多方面挖掘和链路分析中的方法被用于分析程序系统以实现软件的模块化和软件架构恢复。PAF平台被设计用来整合方面挖掘和链路分析的方法分析程序的调用关系以实现软件的模块化和软件架构恢复。PAF的基本设计理念是首先提取源代码中的调用关系,再通过各种不同的分析算法来解决不同问题,比如寻找破坏软件模块化的横切关注。PAF分析了DAQ的源代码和调用关系。分析结果证实PAF的可用性和有效性。PAF可用于分析用C语言编写的项目。 其中对软件架构恢复的研究是为了当对软件架构描述不存在的时候获得对软件系统层次结构的理解。近年来,研究人员采用了很多软件聚类方法去探测软件系统的层次结构。大部分图聚类技术考虑了软件元素之间的连接度,但不合理地忽视了一个重要的测度,即元素之间的相似度。这个测度可用于发现一个模块中的相似元素。本论文提出了一个新的层次图聚类算法-DGHC,该算法同时考虑了程序元素之间的相似度和连接度。首先在程序依赖图的转换过程中,添加了代表相似度的边。然后用DGHC算法交替进行相似度聚类和连接度聚类。其中交替策略被用于发现同时包含高连接度和高相似度的类。同时短随机走方法被用于挖掘更深层次的软件架构信息。实验结果证明相对于其他算法,DGHC算法在发掘软件系统的层级结构具有更好的效果和效率。 这篇博士论文主要涉及作者对ALICE国际合作实验的两个主要贡献。这两个主要贡献解决的问题主要与软件质量和分布式系统安全相关。在本文中被用于ALICE实验中的在线和离线数据系统的软件质量和安全的框架和方法同样适用于有类似需求的软件系统。