面向数据集成的分布式ETL研究与设计

来源 :软件导刊 | 被引量 : 0次 | 上传用户:study_sky
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对数据分析融合平台建设中数据集成开发效率低、数据集成慢和数据网络分散等问题,提出跨网络传输的分布式ETL框架设计。通过对主流ETL工具进行分析,总结了ETL的工作原理及过程,设计了一种基于消息中间件面向数据集成的分布式ETL框架。使用该框架处理数据集成任务时,提交数据集成过程的描述文件进行数据处理。基于元模型驱动和面向切面设计思想,设计数据任务执行引擎和控制模型。基于该框架开发的工具可使数据开发人员从大量重复的数据操作中解脱出来,将更多精力放在数据的逻辑处理上。
其他文献
针对传统温室检测系统传输速率低、成本高、稳定性差等问题,设计了一种基于ZigBee和GPRS的温室群监测系统。该系统利用ZigBee无线传感器技术采集环境参数,通过移动通信网络发送到用户手机,用户使用应用软件APP查看相关数据,采取相应操作。实地验证表明,该系统显示数据稳定准确,使用简单方便,满足系统需求。
随着医疗信息化的不断发展,我国医疗体制改革进程逐步推进。对医学院校实践教学现状进行分析,制定实践教学目标,模拟实现患者从入院登记到出院结算的业务流程,提高医学院校学
为提高IPv4地址空间利用率,IETF提出无类域间路由CIDR地址结构。分析无分类编址CIDR与分类编址的转换、CIDR工作方式、地址分配方法与标记技术,推导最长地址前缀匹配查找算法
无线技术的选择取决于应用程序的类型,要考虑以下条件:范围、频率和数据率。研究了不同移动机器人控制器的无线技术,包括蓝牙、无线网络和无线局域网。通过比较三者的无线技术
在保险行业,大量的文档、票据、证据等作为保险合同的重要组成部分,必须管理好。将保险影像数据管理平台作为保险应用的基础组件,提供影像的全生命周期管理,以有效支撑保险业
在大规模集成互联网络中,需要对网络流量进行异常检测和识别,以保障网络安全。利用高阶累积量对干扰的统计独立性,提出一种基于高阶累积量配准的网络异常流量识别算法。首先
政务微博受众群体广泛、聚众效应强,具有微传播实时性、自由性、碎片化、多元化、多媒体性、互动性强等特点,信息时代政务微博在政府管理体制创新上具有重要作用。对政务微博
互联网以及虚拟技术的广泛应用,推动了数字出版的普及,催生了多种出版应用模式。IT技术的进步,使得基于互联网构建以自动化排版为特征的动态数字出版解决方案成为现实。集群调度技术通过构建任务管理中心,接收并实现外部请求任务在多个业务处理模块之间的分发与调度,从而充分利用计算资源,提升任务处理效率。针对自动化排版并发性强、即时性高以及对数据安全的特殊要求,提出了一种集群出版方法。基于XML格式进行传输参数
针对分散控制系统(Distributed Control System,DCS)和不同类型设备与第三方力控组态软件通讯的问题,提出一种融合OPC技术标准和Modbus RTU、Modbus TCP协议的通讯,有效解决了工厂应急数据采集系统通讯过程中遇到的问题。
主题词表是一种语义词典,在现代信息检索系统中具有良好发展前景。使用主题词有利于实现录入数据的正确性校验和自动标引。借助主题词间的关联,还可实现交互检索,提高检准率