跨平台统一大数据分析处理与可视化编程平台

来源 :南京大学 | 被引量 : 0次 | 上传用户:laoye1111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据技术的快速发展,涌现出了针对不同类型任务以及不同大数据编程计算模型的大数据分析系统,例如通用大数据分析系统Hadoop、Spark,图计算系统Graph X、Gemini,流式数据分析系统Storm、Flink等。目前,各类大数据分析处理系统已有上百个,并且新的大数据系统仍然不断产生。种类繁多的大数据系统为大数据应用开发提供了丰富的选择。但是,不同的大数据系统往往具有不同的编程模型和编程框架。由于缺少平台无关的跨平台统一编程模型,无法实现代码“Write Once,Run Anywhere”的特性。另外,大数据分析任务正在变得越来越复杂,单一大数据系统已难以胜任复杂的计算任务。现实中的复杂大数据分析应用通常具有综合性,需要在同一个编程空间内混合使用多个计算模型,这就要求大数据处理系统具备支持多种计算模型以及混合集成使用多个计算平台的能力。而且,大数据系统学习和使用门槛较高,缺乏成熟的可视化编程方法,开发效率较低。为了降低大数据分析的技术门槛,提升大数据分析的效率和易用性,本文研究设计了跨平台统一的大数据分析以及可视化编程方法,并设计实现了原型系统。本文主要的研究工作和贡献点包括:(1)研究提出了覆盖各种大数据计算模型的跨平台统一大数据编程模型和编程框架。支持表模型、矩阵模型、张量模型、图模型等常用的大数据计算模型,通过平台无关的跨平台统一大数据编程模型,允许用户实现跨平台统一的大数据分析处理编程,从而实现“Write Once,Run Anywhere”的跨平台特性。(2)研究实现了基于计算流图的可视化编程方法。在跨平台统一大数据编程模型之上,将各种基本操作和算法组件封装成算子,通过可视化算子拖拽的方式快速构建计算流图,高效实现全流程化的大数据综合分析。(3)研究设计了开放式大数据系统集成框架。允许以兼容并包的方式,高效灵活地集成各种主流的大数据计算平台。同时,也支持用户快速集成运行于特定计算平台的自定义算子。(4)研究实现了基于代价模型的计算平台自动选择方法,自动为计算流图中的算子选择最优的平台,从而提升整个计算流图的运行性能。另外,为了提升跨平台计算效率,研究设计了跨平台统一调度器和跨平台统一数据交换引擎。(5)基于以上关键技术,设计实现了跨平台统一大数据分析处理与可视化编程平台原型系统。系统具备可视化、跨平台、自动调度、开放式等特性,让用户无需代码编程即可高效地构建全流程式的大数据分析处理算法和应用。实验结果表明,本系统能够高效地实现跨平台统一大数据分析以及自动化的计算平台选择,在大幅提高易用性的同时,提升大数据综合分析的整体计算性能。
其他文献
由于核子-核子相互作用的短程部分,处于原子核基态中的核子会形成具有较大相对动量和较小质心动量的短程关联核子对。实验观测结果显示即使是在208Pb这样的丰中子核中,中子-质子关联依然是核子-核子短程关联的主要形式。因此,在丰中子核中,质子发生短程关联的概率要大于中子发生短程关联的概率。中子星内部的物质为典型的高密度丰中子物质,因此在中子星研究中考虑核子-核子短程关联是必不可少的。利用相对论平均场模型
当今时代,商业模式设计已然成为促进企业经济发展的又一增长级,众多初创企业在面对外部环境剧烈变化及内部资源约束下,借助商业模式设计实现了跨越式发展,甚至颠覆了原有的产业竞争格局。进一步地,伴随物联网、大数据等信息技术的迅猛发展,以线上虚拟世界和线下现实世界相互融合为特征的O2O模式日益成为众多初创企业获取竞争优势的不二选择。然而,O2O初创企业的发展并非如人们所预想的那般一帆风顺。尤其是自2011年
自20世纪80年代改革开放以来,中国经历了前所未有的快速城市化进程,到2019年,城市化率已经达到了60.6%,快速推进的城市化引起了土地城市化与人口城市化进程不协调、城市化质量不高、城市基本公共服务发展水平不平衡等问题。近年来,我国开始着力推进新型城镇化建设,其中推进公共服务设施的“均等化”是以人为核心的新型城镇化的重要方面。为此,国家提出了统筹“推进城乡规划、基础设施和公共服务一体化”的城镇化
长期以来,由于治理资金短缺和对农村水体环境保护意识淡薄,农村生活污水随意排放情况较为普遍,严重损害人体健康和生态环境,农村生活污水治理工作迫在眉睫。农村生活污水的有效治理依赖于新技术、新方法的研发和运用,课题组此前研制的复合腐殖填料生物滤池技术能够较好地降低农村生活污水中的化学需氧量(Chemical Oxygen Demand,COD)和总氮(Total Nitrogen,TN)浓度,但其对总磷
近年来随着有机电子学的快速发展,有机半导体材料因制备工艺简单、可柔性折叠及价格低廉等优点受到了越来越多的关注,在晶体管、发光二级管、太阳能电池等有机电子器件中有着广泛的应用前景。本文选择以典型的n-型小分子半导体EP-PDI(N,N′-bis(3-pentyl)perylene-3,4,9,10-bis(dicarboximide))作为研究对象,开展了EP-PDI薄膜及微米线的制备及发光特性研究
我国现有超过70亿吨存量生活垃圾,占地超过5亿m2,环境污染严重,资源潜力巨大但转化率极低,库容以及土地释放需求迫切。本课题是2018国家重点研发计划“固废资源化”重点专项“存余垃圾无害化处置与二次污染防治技术及装备(2018YFC1901400)”中课题4“存余垃圾(也称存量垃圾)异位预处理及智能化组合分选和分质资源化技术装备及示范(2018YFC1901404)”中的部分研究内容。本课题研究存
随着储量有限的化石能源利用越来越广泛,能源危机以及现行的能源使用方式对环境相应地造成地越来越多的污染等问题困扰着人们,于是新能源的开发和利用成为非常迫切需要解决的问题。与此同时,作为能源使用中转站的储能设备迎来了发展机遇,容量高、功率密度大、使用寿命长的能源储存设备成为了人们的期待。研究表明,发展新材料是制造高质量储能设备的关键所在。作为有着独特性质、在能源领域被广泛使用的碳基材料,其在储能领域有
目的本研究的目的是利用基线胸部CT影像,建立并验证深度学习模型,在基线CT扫描上鉴别暂时性亚实性结节与持续性亚实性结节,帮助实现亚实性结节持续性的有效早期诊断。方法本研究纳入了从2009年2月到2018年7月在我院行胸部CT检查并发现肺亚实性结节的968名患者,共1414个结节,其中确定暂时性结节319个,持续性结节1095个。收集并统计各结节的临床及CT特征。按70%:15%:15%的比例将结节
温室气体(GHGs)对评估生物化学环境是一个有力的信息。在全球变暖这一背景下,大气中温室气体的聚散成为观测气候变化的关键,尤其是温室气体对全球温度的上升影响重大。大气中的二氧化碳(CO2)和甲烷(CH4)是主要的温室气体组成部分,而这两种气体的增加与人类活动息息相关。使用皮尔逊相关性模型,对GOSAT数据与东北部的龙凤山(LFS)和西北部的瓦利关(WLG)站点数据做相关性分析,以求得到卫星数据和地
钙离子作为细胞中的第二信使,有着多种多样的生物学功能;钙离子信号是由钙离子通道、内钙库介导产生的细胞质钙离子浓度变化,是钙离子行使功能的主要途径之一。肿瘤严重威胁到人类对美好生活的向往和对健康长寿的追求,肿瘤转移是肿瘤晚期的主要标志,表现出由单一器官组织向全身蔓延发展的特征;肿瘤转移的方式有很多,包括:单细胞运动、群体性细胞迁移,其中群体性细胞迁移的相关报道较少。为了探究肿瘤细胞钙信号和群体迁移的