论文部分内容阅读
近年来,随着计算机信息化手段的广泛运用,军队卫生统计工作信息化水平不断提高,通过构建卫生统计门户网站,为总部首长提供卫生统计查询服务,在数据利用方面取得了巨大的进步。但是,目前的统计方法和系统还存在统计指标不够完善、统计粒度不够细、交互式查询响应速度慢等问题,对辅助决策支撑能力不足。现阶段,我军已初步实现全军医疗服务信息的自动抓取,仅结构化数据每年的抓取量达数百亿条记录,军队卫生统计工作已经进入了大数据时代。而目前的统计流程和软件,需要约一周时间进行年度统计会审,难以满足实际需求。为此,原总后卫生部启动了“军队卫生统计创新工程”作为“十二五”全军卫生信息化建设的重点工作,大数据统计处理方法和技术是其中的重要支撑。实现军队医疗服务大数据的交互式统计分析,能够基于海量原始医疗数据提供以“天”为单位的细粒度统计模式,为总部机关卫勤决策提供数据支持,从而及时掌握医疗资源的分布和利用情况,快速应对和处置公共突发卫生事件,以及加强对医疗服务机构的指导、管理和监督。同时,也可以为军队、国家的卫生统计系统和区域医疗平台的建设提供普适性的方法论指导,为构建全军医疗大数据服务平台提供技术支撑,从而促进卫勤管理保障从粗放型到精细型的模式创新。本文运用文献研究法、对比分析法、专家咨询法、系统分析法、调查法、实证研究法等研究方法,分析了军内外卫生统计的发展现状,对相关理论及概念、军队医疗服务大数据的来源范畴、数据特征进行了定义和归纳总结,构建了军队卫生统计指标体系框架,围绕大数据时代下的军队医疗服务数据统计、分析及利用的功能和性能需求,针对全军卫生信息中心采用“数据直报”系统从全军200余家中心医院抽取的大样本分布式、同构、结构化、复杂关联的数据进行交互式统计的处理方法和步骤进行了梳理总结,并提出了一套基于Spark的并行计算解决方案,对数据预处理、分布式存储、交互式智能统计和多维可视化等功能模块所需的关键技术进行了技术选型,完成了军队医疗服务大数据交互式分析平台系统的架构设计,以Spark计算平台为基础进行了系统原型的实现,并在此基础上使用不同数据规模的6个测试数据集和8个节点规模的Spark集群对原型系统的功能和性能进行了对比和验证。1.勤务需求分析从卫勤保障的勤务需求出发,分析基于医疗服务大数据的统计分析平台需具备的功能指标和性能指标。一是对军队医疗服务数据统计的相关概念、基础理论和国内外研究发展与现状进行了研究,将其归纳为“大样本复杂关联数据”;二是系统分析了医疗服务大数据的来源、范畴及特征;三是从业务角度对现有军队卫生统计指标进行归类整理,构建出了包含业务领域、业务主题、统计目的、统计维度和分析指标等5个层次的军队卫生统计指标体系框架,并对医疗服务业务领域中的门诊、住院等业务主题进行了细化;四是提出了交互式统计平台的功能及性能需求。2.交互式统计关键技术选型在勤务需求分析的基础上,分析医疗服务大数据交互式统计平台的数据通用处理流程,确定需要分布式存储、NoSQL数据库、通用大数据处理平台和大数据可视化Web框架等关键技术,对各类技术的优缺点进行对比分析,借鉴其在互联网、金融、电商及医疗服务行业中的具体应用,结合医疗服务大数据的特点,选取适用于交互式统计分析的技术组合,即选用Sqoop为医疗服务数据提供支持增量更新的ETL服务,HDFS和HBase为医疗服务大数据和其计算结果集提供存储服务,Spark计算框架提供交互式、高效的并行计算服务,Web2py提供多维可视化展示。3.医疗服务大数据交互式统计平台系统设计通过对医疗服务大数据交互式统计分析平台建设目标的梳理对平台进行架构设计,将体系结构在功能上划分为外部数据接入和存储、多范式数据分析和提取、交互查询和数据展示三个基本模块。从数据预处理和存储、高效并行计算服务和可视化展示三方面分别设计相应的体系结构和算法。4.系统原型实现及验证应用前面部分的研究成果,指导系统原型设计、开发环境选择和部署运行,以Spark计算平台为基础对设计的医疗服务大数据交互式分析平台进行了系统原型的实现,验证了系统的功能。在此基础上,以门诊流程所涉及到的相关数据表为例,使用线性增长的6个不同大小的测试数据集和8个节点的Spark集群对系统的功能和性能进行了对比测试验证。测试的计算类型包括简单分组规约、求和规约和多表连接等统计过程中的代表性操作。利用支持增量更新的数据ETL工具Sqoop、分布式文件系统HDFS、分布式数据库HBase、基于内存计算的Spark框架和简单高效的Web2py可视化展示平台等大数据技术组合,开发的军队医疗服务大数据交互式统计分析平台系统原型能够支持亿级记录以上医疗服务数据规模的交互式统计查询,在满足数据预处理、存储、计算和可视化功能的前提下,任务处理效率能够随着硬件节点资源的增加得到近乎线性的提升。本研究是大数据处理技术在医疗服务大数据交互式统计分析中的有益探索和成功尝试,为建设全军范围内的卫生信息统计平台以及医疗服务大数据的进一步挖掘和利用提供了第一手的实践资料。