海洋环境数据仓库ETL系统的研究与开发

来源 :东北大学 | 被引量 : 0次 | 上传用户:orallove
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
建国以来,各相关单位在中国海域和大洋地区相继开展了多次大规模的海洋调查研究工作,积累了丰富的海洋数据。如何有效地管理和利用这些数据,为国民经济建设和国防服务,是一个亟待解决的问题。“海洋环境数据仓库和数据挖掘研究”正是基于此而提出的一个课题,它是由东北大学软件所和国家海洋信息中心合作开发,包括数据仓库、数据挖掘和OLAP三个部分。本文重点讨论海洋环境数据库中ETL系统关键技术的研究及系统设计和实现。 提高数据库的数据质量是ETL的重要任务,数据清洗相关算法的研究已经相当成熟,然而数据清洗是否有效更重要的在于清洗规则制定的准确程度。为了方便数据库的开发人员和源数据管理员的沟通,提高清洗规则制定的准确度和可信度,本文提出了把数据清洗的部分工作放在ETL过程的开始部分执行的改进架构。它将原来主要集中在ETL服务器上的数据清洗工作分散到了各个源数据端的服务器上,增强了系统的并行度,减轻了ETL服务器的负担,提高了清洗效率。该架构同时将源数据改造和一般性变换后,利用数据库自带的专用工具进行数据加载,大大提高了ETL的速度,减少了编码的工作量,增强了系统的可靠性。该改进的架构还支持统一的增量数据抽取,以及对空间数据特有的ETL问题进行了扩展。 本文提出了基于多线程/进程和任务平衡调度的优化策略,以进一步提高数据加载的速度和资源的利用率。并对任务平衡调度策略进行了比较深入的研究,建立了基于工作流原理的多任务平衡调度模型,提出了静态调度,动态调度和同层划分的优化调度策略。最后给出了改进的ETL架构在海洋环境数据库中的应用,以及具体的ETL系统的设计和实现。实践表明,改进的ETL架构便于系统的并行开发,缩短了项目周期,根据它实现的系统运行稳定,速度快。
其他文献
如今Web的主流化使得企业应用系统由封闭状态逐渐走向开放,企业应用面对的信息资源将越来越依赖于Web环境。基于J2EE的分布式应用系统作为企业应用开发的主流,所面临的一个重
网络的本质和它的最大特点在于资源的共享。网络发展的过程中由于带宽及处理能力等的限制,使得我们的沟通中出现了很多的中间环节,如中间服务器、门户网站、第三方信息(交易)
水情水调系统(System for Hydrologic Data and Reservoir Dispatching,简称HDRD)是一个集计算机及网络通讯技术、自动化硬件设备与接口、水库调度专业知识为一体的大规模集
电子政务是随着计算机技术和网络技术的快速发展而建立起来的。电子政务的目的是利用现代的信息技术实现政府办公网络化、自动化、无纸化,以提高政府部门的办公效率,打破政府各
随着社会的发展,人们的活动范围越来越大并且越来越不确定。这种移动性和不确定性给移动通信带来市场和挑战的同时,也为位置服务的开展和扩大带来了无限商机。鉴于对位置业务未
信息系统在现代社会已经深入到各行各业中,在各自的位置上发挥着重要的作用。随着网络技术的发展,使得基于网络的资源共享成为可能,几乎每一个大中型公司和许多小型的公司,都
周期模式主要是研究时序数据库中的循环特性,是时态数据挖掘的一个重要的研究方向。周期模式的挖掘具有广泛的应用前景,如:气候、每天的交通模式、股票交易的波动、网站的访
海油平台是为了开采石油、天然气等海底资源而建造的生产和生活所需的巨型海上钢铁结构物(装备)。海油平台的生产类型属于单件生产(小批量生产极少见),因此不同海油平台之间
2008年以来,云计算在IT业被广泛关注。云计算被看作是分布式处理、并行处理以及网格计算发展的产物,其中云计算的关键是并发、分布,核心是海量数据处理。但是云计算只是一种
机器人足球(RoboCup)是一个研究多智能体系统在实时对抗环境下决策与合作问题的平台。由于分布性、实时性、动态性、异步性等特点,使其成为分布式人工智能研究的一个标准的平