【摘 要】
:
大数据技术已经被广泛应用于医疗保健、保险业、政府、科学研究等领域,这些领域中的部分数据往往具有高度的敏感性。随着频繁暴露的隐私数据泄露问题,以及有关保护数据隐私的法律出台,使用Spark集群高效处理这些海量数据时,需考虑隐私数据的保护问题。本文考虑多数据中心下面向分布式隐私数据的Spark任务调度问题以优化工作流完工时间为目标,其主要挑战在于:(1)如何确保调度过程满足Spark工作流的隐私性约束
论文部分内容阅读
大数据技术已经被广泛应用于医疗保健、保险业、政府、科学研究等领域,这些领域中的部分数据往往具有高度的敏感性。随着频繁暴露的隐私数据泄露问题,以及有关保护数据隐私的法律出台,使用Spark集群高效处理这些海量数据时,需考虑隐私数据的保护问题。本文考虑多数据中心下面向分布式隐私数据的Spark任务调度问题以优化工作流完工时间为目标,其主要挑战在于:(1)如何确保调度过程满足Spark工作流的隐私性约束;(2)如何避免少数满足隐私约束的资源成为调度瓶颈;(3)如何从既包含嵌套偏序关系中Stage集合又包含可独立并行执行的Task集合中得到合适的Task序列以最小化完工时间。针对这些挑战,本文分析异构集群下Spark调度问题的特点,建立相应数学模型,基于现有Spark框架设计考虑工作流隐私约束的系统架构,提出Spark任务调度智能算法框架。该框架包括任务序列化、染色体编码、初始化种群、适应度函数及遗传操作等算法组件。提出考虑集群服务器性能差异的Stage优先级规则、隐私性优先和数据量优先的任务排序规则;设计二进制染色体编码体现任务序列与调度方案,设计参照矩阵以确保个体满足工作流隐私约束;给出适应度函数为个体选择提供方向;提出最早完成时间优先策略初始化一个个体,为算法搜索及进化提供大致方向;依据参照矩阵生成其他有效初始个体;提出保留父代适应度最高值个体的选择策略;建立交叉机制,根据交叉个体情况使用不同的交叉概率并使用多种交叉方法,使交叉后的新个体往适应度高的方向进化;根据变异个体情况使用不同的变异概率并依据参照矩阵产生有效个体。为验证所提出算法的性能,采用多因素方差分析方法校正算法中提出的参数,确定解决本问题的最佳参数值组合。改进两种以优化工作流执行时间的算法作为基准算法,从多方面比较分析本文提出的算法与基准算法,实验结果表明所提出算法在不同Job数量、不同数据中心数量的实例下性能均优于基准算法。
其他文献
随着人们对基于位置的服务的需求的不断增加,室内定位技术有着广阔的前景和商业价值。目前基于Wi-Fi的室内定位技术因设施已有广泛部署的优点获得较多应用,相较于信号强度(Received Signal Strength Indication,RSSI),信道状态信息(Channel State Information,CSI)提供了更细粒度的信息,而且受多径效应的影响小,信号特征更加稳定,因此以CSI
封装是MEMS传感器制造过程中的重要环节,能够为MEMS芯片提供机械保护、电连接、散热等功能。但同时封装结构失配也会造成封装效应,导致敏感结构的变形,影响传感器的性能。本文以硅微谐振式加速度计封装结构为切入点,研究粘接胶对硅微谐振式加速度计的影响,并进行隔离结构设计,主要工作内容如下:(1)针对芯片粘接胶的粘弹性,选择了常用于MEMS芯片粘接的硅胶、环氧树脂胶和改良环氧树脂胶制作了胶体试样,利用动
能源危机及环境污染是当前世界共同面临的难题,环保型、节约型、智能型供能网络成为能源结构升级的重要方向。随着热电联产、燃气轮机、气源热泵、电转气等设备的持续投入、基于物联网的智能城市的建设及能源互联网战略的提出,当今能源网络已经从传统电力系统逐步过渡为信息物理一体化、多能源形式耦合的综合能源信息物理系统(Integrated Energy Cyber Physical System,IECPS)。新
目标:1.描述性分析非洲国家过去20年间耐多药结核病领域的研究进展和地区分布特征。2.分析乌干达2014至2018年间耐多药结核病的流行特征及治疗效果。3.系统评价暴露于室内空气污染(IAP)和烟草烟雾与结核病(TB)感染风险之间的关联。方法:1.对2000年至2020年(4月21日)在Web of Science文献数据库中发表和索引的,非洲国家和地区人群耐多药结核病相关研究论文进行了文献计量分
新型功能性金属纳米粒子具有可设计的形貌尺寸和独特的光电特性,为微纳组装材料提供了广泛的构建基元,在柔性光电器件和表面增强拉曼散射(SERS)高灵敏检测等领域具有重大应用前景。近年来,不同维度的贵金属超晶格结构材料已被国内外科研人员相继报道并见诸于纳米材料领域的重要期刊,例如“手性纳米组装体”、“类聚合物链状阵列”以及“超晶格晶体”等一维-三维材料,多层级结构的精准构建以及新型功能性的可控设计成为了
随着码头使用年限的增长和码头不利环境作用的侵蚀,码头构件不断劣化,结构性能不断退化,在役高桩码头的整体性能安全问题不容轻视。开展高桩码头结构性能退化演变状态下的整体工作安全性研究,对在役高桩码头的使用安全与风险防控具有一定的理论意义和应用价值。本文对海洋环境中氯离子和应力联合作用下的高桩码头构件劣化与性能退化进行分析研究。结合高桩码头工程结构各构件刚度性能的退化分析,构建D-P桩土相互作用下的高桩
金融业作为百业之母,与所有的行业都深深交织在一起,蕴含着海量的金融文档。虽然技术不断发展,但这些数据收集、整理和写作的工作却还是依赖人力完成。如果能使用自动化技术来完成金融报告这个繁琐费时的工作,可以减少重复的手工体力劳动,帮助金融从业者提高工作效率,从而聚焦在更有价值的工作上。然而,将深度学习技术应用到报告生成的过程中,还存在着许多问题。首先,金融报告生成属于文本生成问题,传统使用基于模板的方法
活性氧(ROS)在细胞生命周期(例如增殖)中起着重要的作用,但是当ROS水平超过肿瘤细胞正常生理活动所需的阈值,会致使DNA、蛋白质失活,从而进一步导致细胞死亡。因此通过外源干预来打破细胞内ROS平衡状态是一种治疗癌细胞可行的策略。为了极大的提高肿瘤细胞的氧化效率,需要通过芬顿反应或类芬顿反应,并在芬顿试剂如铁(Fe2+)的存在下将H2O2转化为·OH。因此通过外源性增加细胞内H2O2的含量,或者
近些年,随着计算机技术和人工智能技术的发展,心电信号的自动分类方法日渐完善,其主要包括以下四个步骤:信号采集、信号预处理、信号特征处理、信号分类。信号采集主要指采用硬件设备获得原始心电信号,信号预处理主要指对原始信号去噪以及去除基线漂移等操作,信号特征处理指对于原始信号的特征进行提取、选择、融合等操作来突出不同类别信号之间的差异以获得更好的分类效果,信号分类是指采用分类器对特征处理后的信号实现分类
银行在信息化建设过程中,为了实现全行业务的统一核算和账户集中管理,都各自建立起了一套综合业务系统,但由于各银行信息化实施时间有先后,在设备选型、系统建设、技术运用、接口标准等方面难以形成统一,造成各地市信息化差异较大,并且银行内很多系统相互独立且内部耦合性较高,随着银行业务的高速发展,带来的系统维护成本也越来越高,难以匹配业务的发展速度。针对该问题,本文基于SOA技术,提出了一种解决银行异构系统间