论文部分内容阅读
摘要:本文浅谈大数据相关技术及当前大数据库处理架构Hdadoop,其中包括分布式文件系统HDFS、分布式数据库HBase,MapReduce模型及工作流程,并且对大数据在医疗应用方面进行举例及分析。
关键词:大数据技术;医疗应用分析
一、大数据关键技术
Hadoop是开源分布式计算平台,提供了分布式基础架构,支持多平台运行,Hadoop核心技术包括分布式文件系统HDFS、分布式数据库HBase和MapReduce分布式并行编程。分布式文件系统HDFS能够实现较高的读写速度及容错率,能够在廉价的集群上运行,拥有很好的拓展性。Hadoop是分布式处理软件架构的典范,包含了众多的子项目,其中还包括Zookepper,Hbase、Hlive、Pig等功能组件。涉及分布式并行编程、分布式数据库、分布式文件系统、NoSQL数据库、云数据库、流计算、图计算等等相关技术。Hadoop官方推荐使用Linux操作系统,需要在集群的每个终端电脑上创建Hadoop用户,安装JAVA虚拟机,并且设置SSH登录权限,以便于启动集群中Hadoop守护进程。对于分布式集群而言,需要通过配置文件对各个组件协同进行配置。
HDFS(分布式文件系统)能够运行在廉价服务器上,在设计之初就将服务器故障作为常见问题来考虑,充分考虑的硬件的不稳定性。HDFS可以保证硬件不稳定的情况下也能保证文件以文件流的形式访问文件系统中的数据。HDFS分布式文件系統为了减少寻址开销,64MB为单位,以块的形式进行存储及读取。HDFS中名称节点(NameNode)和数据节点(DataNode),而名称节点拥有两个核心数据结构,FsImage和EditLog。FsImage用于保存文件系统的树形结构及文件结构的元数据,而EditLog记录了所有对文件的创建、删除等。FsImage文件加载在内存中,所有操作记录在EditLog中,当重启名称节点时,通过EditLog还原FsImage为最新记录。数据节点(DataNode)是文件系统中的数据存储节点,用于数据存储和读取,并定期向名称节点发送该服务器上所存储的块列表信息。HDFS采用主从结构模式进行内部管理, HDFS集群包含一个名称节点,多个数据节点。一个文件会被切分成多个数据块,数据块会被分布存储到各个数据节点上。当客户端需要访问一个文件时,首先通过名称节点查找到这个文件所有的块数据节点的位置,客户端直接并行访问数据节点以提高数据访问速度。
HBase是高可靠、高性能、可伸缩、面向列的分布式数据库,主要用来存储非结构化和半结构化的松散数据。HBase分布式数据库一般使用HDFS文件系统用来存储底层数据,使用行键、列族、列限定符、时间戳对数据进行检索,时间戳是为了保证每个单元格对同一份数据存在多个版本,不同版本通过时间戳进行辨别。HBase数据库中的表由行和多个列族组成,表中的每个列都归属于一个列族,访问表中数据时,列族作为列的前缀进行访问的,例如,School:Name,通过四维坐标的形式,访问Hbase表中的数据,即[行值,列族,列,时间戳]的形式。HBase数据库是基于列式存储方式进行数据存储,以列为单位,具有相似属性值得数据会被连续存放在一起,而一行中的数据会以列为单位被分开存储,而传统关系型数据库中一行数据会被连续存放在存储磁盘页中,当我们需要访问其中某些属性值时,必须将整行数据所有属性值查询一遍,存放在内存中,对于大数据量时会造成IO资源及内存资源紧张。列式数据库适合于大批量数据的查询,仅需处理可用的查询列,与其无关的数据列则无需响应,但是当需要一个完整的数据元组时将从各个数据磁盘页中将数据进行重组和封装,以拼凑成完成元组数据,这对于联机型事务和实时业务而言,会造成资源极度消耗。
MapReduce是关于大数据的核心并行计算模型,将大规模集群上并行计算进行具体抽象为Map和Reduce两个函数,编程人员只需要实现Map和Reduce函数,而不需要关系进程调度、负载、分片、容错等具体细节,Map函数是作为数据输入函数,数据来自于大数据集被分割成的小数据块,这些小的数据块可以独立的、并行的被多个Map任务来处理,数据块格式是任意形式的,如文档、图片、二进制格式都可以。Reduce函数的输入来自于Map处理后的结果,将具有相同键值对的数据以某种方式组合在一起,形成一个合并文件或结果Map函数处理结果后通常会形成<key,value>形式的中间结果,而Reduce函数的作用则是将多个Map函数生成的结果进行合并,将相同key键值的数据合并在一起,以某种计算方式进行最总合并,最终得到我们想要的结果。
二、医疗应用
数据特别适合医疗数据的分析和汇总,由于患者的数据非常庞大,患者的数据可以来自于物联网可穿戴设备、也可以来自于医院内的HIS、RIS、PACS、LIS、EMR等系统数据,同时这几年随着医改不断深化,医保数据及DRGS数据分析都离不开大数据的支持,在医院管理层面,领导层更希望得到整个区域患者来院及分布,某类疾病的患者外流原因及数量,医院人员的工作效率等等,都需要大数据技术的支持,可以说大数据技术将影响医院未来管理的方向,能够让管理者更宏观的通过数据对医院的整个运营状态进行把控,并给予相应的原因分析。人类基因测序、区域健康大数据、流行病学的追溯及预测、智慧医疗都是大数据研究的范畴。医疗健康大数据蕴含着巨大的价值,越来越多的人注重自身的健康管理,通过自身的查体健康档案,可以通过大数据预测未来发生某种疾病的风险,并给予健康指导及健康规划、健康诊疗方案。大数据的发展特别能够推动各自医院朝着智慧医院方向发展,促进更多智能化患者服务,更好的为患者提供服务。
参考文献
[1]张卜月.大数据技术原理与应用探微[J].通讯世界,2019,26(01):138.
作者简介:薛凯,男,山东省青岛市,1990年5月,本科,高级系统架构师,软件设计师,青岛市黄岛区人民医院信息中心工作,主要从事软件维护、软件开发
关键词:大数据技术;医疗应用分析
一、大数据关键技术
Hadoop是开源分布式计算平台,提供了分布式基础架构,支持多平台运行,Hadoop核心技术包括分布式文件系统HDFS、分布式数据库HBase和MapReduce分布式并行编程。分布式文件系统HDFS能够实现较高的读写速度及容错率,能够在廉价的集群上运行,拥有很好的拓展性。Hadoop是分布式处理软件架构的典范,包含了众多的子项目,其中还包括Zookepper,Hbase、Hlive、Pig等功能组件。涉及分布式并行编程、分布式数据库、分布式文件系统、NoSQL数据库、云数据库、流计算、图计算等等相关技术。Hadoop官方推荐使用Linux操作系统,需要在集群的每个终端电脑上创建Hadoop用户,安装JAVA虚拟机,并且设置SSH登录权限,以便于启动集群中Hadoop守护进程。对于分布式集群而言,需要通过配置文件对各个组件协同进行配置。
HDFS(分布式文件系统)能够运行在廉价服务器上,在设计之初就将服务器故障作为常见问题来考虑,充分考虑的硬件的不稳定性。HDFS可以保证硬件不稳定的情况下也能保证文件以文件流的形式访问文件系统中的数据。HDFS分布式文件系統为了减少寻址开销,64MB为单位,以块的形式进行存储及读取。HDFS中名称节点(NameNode)和数据节点(DataNode),而名称节点拥有两个核心数据结构,FsImage和EditLog。FsImage用于保存文件系统的树形结构及文件结构的元数据,而EditLog记录了所有对文件的创建、删除等。FsImage文件加载在内存中,所有操作记录在EditLog中,当重启名称节点时,通过EditLog还原FsImage为最新记录。数据节点(DataNode)是文件系统中的数据存储节点,用于数据存储和读取,并定期向名称节点发送该服务器上所存储的块列表信息。HDFS采用主从结构模式进行内部管理, HDFS集群包含一个名称节点,多个数据节点。一个文件会被切分成多个数据块,数据块会被分布存储到各个数据节点上。当客户端需要访问一个文件时,首先通过名称节点查找到这个文件所有的块数据节点的位置,客户端直接并行访问数据节点以提高数据访问速度。
HBase是高可靠、高性能、可伸缩、面向列的分布式数据库,主要用来存储非结构化和半结构化的松散数据。HBase分布式数据库一般使用HDFS文件系统用来存储底层数据,使用行键、列族、列限定符、时间戳对数据进行检索,时间戳是为了保证每个单元格对同一份数据存在多个版本,不同版本通过时间戳进行辨别。HBase数据库中的表由行和多个列族组成,表中的每个列都归属于一个列族,访问表中数据时,列族作为列的前缀进行访问的,例如,School:Name,通过四维坐标的形式,访问Hbase表中的数据,即[行值,列族,列,时间戳]的形式。HBase数据库是基于列式存储方式进行数据存储,以列为单位,具有相似属性值得数据会被连续存放在一起,而一行中的数据会以列为单位被分开存储,而传统关系型数据库中一行数据会被连续存放在存储磁盘页中,当我们需要访问其中某些属性值时,必须将整行数据所有属性值查询一遍,存放在内存中,对于大数据量时会造成IO资源及内存资源紧张。列式数据库适合于大批量数据的查询,仅需处理可用的查询列,与其无关的数据列则无需响应,但是当需要一个完整的数据元组时将从各个数据磁盘页中将数据进行重组和封装,以拼凑成完成元组数据,这对于联机型事务和实时业务而言,会造成资源极度消耗。
MapReduce是关于大数据的核心并行计算模型,将大规模集群上并行计算进行具体抽象为Map和Reduce两个函数,编程人员只需要实现Map和Reduce函数,而不需要关系进程调度、负载、分片、容错等具体细节,Map函数是作为数据输入函数,数据来自于大数据集被分割成的小数据块,这些小的数据块可以独立的、并行的被多个Map任务来处理,数据块格式是任意形式的,如文档、图片、二进制格式都可以。Reduce函数的输入来自于Map处理后的结果,将具有相同键值对的数据以某种方式组合在一起,形成一个合并文件或结果Map函数处理结果后通常会形成<key,value>形式的中间结果,而Reduce函数的作用则是将多个Map函数生成的结果进行合并,将相同key键值的数据合并在一起,以某种计算方式进行最总合并,最终得到我们想要的结果。
二、医疗应用
数据特别适合医疗数据的分析和汇总,由于患者的数据非常庞大,患者的数据可以来自于物联网可穿戴设备、也可以来自于医院内的HIS、RIS、PACS、LIS、EMR等系统数据,同时这几年随着医改不断深化,医保数据及DRGS数据分析都离不开大数据的支持,在医院管理层面,领导层更希望得到整个区域患者来院及分布,某类疾病的患者外流原因及数量,医院人员的工作效率等等,都需要大数据技术的支持,可以说大数据技术将影响医院未来管理的方向,能够让管理者更宏观的通过数据对医院的整个运营状态进行把控,并给予相应的原因分析。人类基因测序、区域健康大数据、流行病学的追溯及预测、智慧医疗都是大数据研究的范畴。医疗健康大数据蕴含着巨大的价值,越来越多的人注重自身的健康管理,通过自身的查体健康档案,可以通过大数据预测未来发生某种疾病的风险,并给予健康指导及健康规划、健康诊疗方案。大数据的发展特别能够推动各自医院朝着智慧医院方向发展,促进更多智能化患者服务,更好的为患者提供服务。
参考文献
[1]张卜月.大数据技术原理与应用探微[J].通讯世界,2019,26(01):138.
作者简介:薛凯,男,山东省青岛市,1990年5月,本科,高级系统架构师,软件设计师,青岛市黄岛区人民医院信息中心工作,主要从事软件维护、软件开发