论文部分内容阅读
随着传染病监测与防控向广度和深度的不断发展,传染病监测与防控相关数据爆炸式的膨胀,传统操作型数据库为主的存储、管理和分析方式已无法满足海量数据分析利用的需求。人们要求计算机能够高效地处理海量日常数据的同时,更多地参与数据分析和决策支持,最大限度地满足疾病监测与防控的及时性与准确性,解决整个系统内由于信息不平衡引起的“信息孤岛”、数据冗余等问题。目前的军队传染病监测报告系统为联机事务处理模式,数据库设计不是为查询和数据分析而优化的,查询分析服务器和业务处理服务器使用同一个数据库,复杂查询分析影响业务系统的性能,而且分析模式固定单一,新增分析与功能扩展开发效率低下且不够灵活,难以满足疾控机构和卫勤管理机关对即时、灵活的数据分析和决策支持的需求。数据仓库技术作为一种用于数据分析和决策支持的数据存储与组织技术,是实现海量数据高效管理与深入分析的有效解决方案。本文研究如何利用数据仓库技术解决军队传染病监测报告的数据分析和辅助决策问题,基于具体业务需求与可利用的数据源,设计并实现了军队传染病监测数据仓库。首先,论文对军队传染病监测数据仓库进行需求分析。通过深入分析当前军队传染病监测报告系统现状,从系统构成、数据传输方式以及分析查询方式等角度,对当前系统的优缺点做出总结。在此基础上,对拟建数据仓库系统的功能需求、性能需求等做出详细规定。其中功能需求主要包括日常业务报表、业务探索式分析、数据加载处理与系统管理等四个方面,覆盖各类用户对于传染病监测数据分析和辅助决策应用的基本需求;性能需求主要对系统数据一致性、系统时间特性以及系统安全性等做出具体规定,保证系统的正常运行;同时还对系统的使用环境、数据传输、运维管理等进行了规定。第二,完成了传染病监测数据仓库的系统设计,包括系统技术架构与多维数据模型设计等内容。通过对数据仓库开发关键技术深入分析比较,确定了技术选型。系统采用三层体系结构,分为数据源层、数据协调层与数据仓库层三部分,物理架构由数据源服务器、ODS服务器、数据仓库服务器、BI应用服务器和客户端计算机五部分组成。系统按照自底向上的建模方法,采用维度事实模型进行多维数据的概念模型设计,以星型模式进行逻辑建模,针对传染病发病情况与传染病报告审计两个主题设计维度总线,共享疾病、机构、地区三个维度。此外,传染病发病情况主题的基础粒度为某患者在某时间患某种传染病,具有诊断时间、开始时间、患者信息、职别、病例信息维度,报告审计事实表基础粒度为某疾控工作人员在某时间上报一份传染病报告,具有报告时间、报告卡信息、报告人信息、审核情况维度。在上述设计的基础上,完成了具体的事实表与维度表的设计。第三,以全军疫情和突发公共卫生事件信息报告系统为主要数据来源,利用Oracle Warehouse Builder、Oracle BIEE软件等工具实现了传染病监测数据仓库,完成了多维数据模型构建、数据准备、分析系统开发等工作。利用OracleWarehouse Builder工具构建了数据仓库多维数据模型,包括源系统分析与数据驱动的多维数据模型构建。在数据准备阶段进一步检查和规范化数据源,利用PL/SQL脚本实现了自动化数据清洗,以Oracle Warehouse Builder为数据ETL工具设计实现从原始数据到统一操作型数据和统一操作型数据到多维模型数据两个阶段的数据ETL过程。以Oracle BIEE为主要工具完成联机分析系统的开发,涵盖日常业务报表、业务探索式分析以及相应系统管理等功能。本文首次研究建立了全军性的传染病监测数据仓库,部署于全军疾病预防控制中心数据中心,为授权用户提供数据分析服务。系统包含83种军队规定上报的传染病的监测数据和业务运行监测数据,存储了报告卡数据约90万条,传染病发病报告数据3万余条,同时每日抽取处理约1000条报告进入数据仓库。系统解决了操作型数据库在传染病监测数据的存储、管理、分析等方面能力的不足,为传染病监测数据的深入管理与分析提供了一套高效的解决方案,为数据挖掘等更深层次应用提供了必要的技术基础,对传染病分析预警、辅助领导决策和相关科研具有重要参考价值。在进一步的研究工作中,可以针对数据来源较为单一,分析主题还不够全面等问题,整合更广泛的数据源,扩展分析主题与功能体系,迭代开发新的数据集市。