论文部分内容阅读
摘要:当前对生命科学领域的研究已经成为国内、国际学者的热点研究问题,在此基础上对生理信息数据库的需求日渐增加。越来越多的人开始应用这些开放的数据作为科研和临床教学的基础。PhysioBank是一大型的、不断扩充的、由生物医学研究机构共享的记录复杂生理信号和相关数据的数据文档集合,已经成为研究人员获得临床数据开发数据分析算法,分享研究成果的重要平台。
本文重点介绍了运用MATLAB的高性能数值计算和可视化的特点,将数据库PhysioBank中的数据进行识读并且用图表直观地显示出来。以MIT—BIH心律失常数据库的测试波形为例介绍起特定数据格式的识读方法,最后简单介绍了该数据库的相关应用。
关键词:数据库;生理信号;心电图;数据格式
1 PhysioNet的简介
自1999年起,由美国国家卫生研究院(NIH)资助,美国麻省理工学院(MIT)联合波士顿BethIsrael Deaconess医学中心、波士顿大学等单位建立了基于Web 的复杂生理信号和生物医学信号研究资源网站PhysioNet(www.physionet.org),用于促进研究数据和分析软件的交流,激励相关研究人员之间的广泛协作,同时促进新的分析方法和参考数据库的发展。PhysioNet资源网站包括PhysioNet网页,数据库PhysioBank和PhysioToolkit软件库三个相互关联部分(如图1.1)。
PhysioNet同时提供了一个开放式的网络资源平台,可以自由地通过网络访问,免费获取PhysioBank和PhysioToolkit的原始数据和分析工具,发布和交换生物医学信号以及处理信号的开放源码软件,为协作进行数据分析和新算法评估提供便利;同时还通过在线指南对用户如何利用该网络资源提供服务和训练,并设置著作论文、最新进展、讨论、挑战、常见问题等专题。PhysioNet为研究人员提供了一个方便获得临床数据、开发数据分析算法、分享研究成果的平台,为临床教育提供重要的病例资料,内容经过严格的审查,其科学性和严谨性已得到广泛的验证,享有很高的权威性。
2 数据库PhysioBank的介绍
目前,国际上有三个主流的心电数据库,即欧共体定量心电图共同标准(CSE),美国心脏学会(AHA)和美国麻省理工学院(MIT/BIH)的电生理信号数据库。美国国家卫生研究院(NIH)的PhysioBank数据库包含了MIT/BIH及位于世界各国不同研究机构的40多个子库。PhysioBank是一个以心电(ECG)信号为主,核磁共振成像(MRI)等其他资料为辅的科研资源大型数据库,总的数据量超过了110GB。它包含了健康人和病人身上提取的心肺活动、神经系统等多参数生物信号。这些信号涉及一些较为普遍的病症,例如心脏猝死、充血性心力衰竭、癫痫症、睡眠呼吸暂停症等[2]。
由于数据压缩及标准化的考虑,数据库中的数据不能直接使用。其数据格式和工具都是在Unix环境开发的,没有提供通用的Windows程序接口,对习惯Windows编成的研究人员来说很不方便。通常的解决方法有两种:一是使用专门的工具软件PhysioToolkit及函数库,在Unix环境中通过专用分析软件对数据进行操作,这对于没有跨平台操作经验的用户来说,这种方法的可扩展性受到限制;二是用户根据数据存储格式来编写自己的识读程序,由于PhysioBank中的数据格式并不统一,用户首先需要确认所需要的数据的存储格式,之后根据数据格式进行相应的程序编写从而达到对PhysioBank中数据识读的目的。本文主要介绍通过第二种方法对PhysioBank中的数据进行读取。
PhysioBank中的数据资料按其发展的成熟完善程度分为三类:
Classl:具有完备的注释信息,并且经过权威机构的测试。比如MIT一BIH中的心率不齐数据库,已经成为一般ECG识读程序的验证参照。
Class2:是特定研究的数据源副本。这些库由其研究者提供,并经过了相关人员有保留的测试。这类数据库可以验证原作者的相关研究,也可以使用不同的方法与原作者的方法进行比较。这类数据库经过多方面的验证和研究之后,将最终转化为第一类数据库。
Class3:来源于某些研究团体,并且正在用于研究,因此,其数据的成熟性和完备性还不够。但是,这类数据库往往反映了当今的研究方向和技术难题。该数据库的开放可以吸引相关领域的研究者共同开展工作。
3 文件的识读
数据库PhysioBank中每一数据库记录通常包含三个文件(如图3.1)分别是头文件(扩展名为.hea),数据文件(扩展名为.dat),注释文件(扩展名为.atr)。
以美國MIT-BIH心律失常数据库为例,该数据库由48个经过注解的记录组成,其中25个记录的全部数据都可以从互联网上下载,每一个记录时间约为30分钟。
比如MIT—BIH心律失常数据库中的记录100包含三个文件,分别是头文件100.hea,数据文件100.dat,注释文件100.atr。
3.1 MIT—BIH心律失常数据库中的信号识读
MIT-BIH心律失常数据库是由麻省理工学院和Beth Israel医院合作共同建立的数据库,MIT-BIH数据库中数据来自47个个体,包括25个男性和22个女性,共有48个记录,每个记录含30分钟左右的数据片段。数据库中ECG的采样频率为360Hz,采样的精度为11位(数据范围在0-2047之间)。数据库中每条记录都包含两个通道的数据(如图3.2),每个通道采用的导联方法也是不一样的。第一通道是采用校正的肢体II导联,第二通道通常采用校正的V1导联(偶尔有V2、V5导联),正常拍的QRS复合波群形态通常在第一通道上比较明显,在第二通道上则一般很难辨别。目前MIT-BIH数据库中的48条记录都可以从网站中免费获取。 识读过程中首先于数据库中下载所需的信号文件,以MIT—BIH中的100文件为例,在网页http://www.physionet.org/physiobank/database/mitdb/ 中可下载100记录的头文件,数据文件与注释文件。
MIT一BIH心律失常数据库的数据文件应用Format212格式存储,针对这一信号类型设计MATLAB程序可识读其中心电信号。
-------------------- SPECIFY DATA
------------------------------------------------------
PATH='C:\MATLAB7\work\Rwave';%读取的路径
HEADERFILE='100.hea';%头文件设定为100.hea
ATRFILE='100.atr'; %注释文件设定为100.atr
DATAFILE='100.dat'; %数据文件设定为100.dat
SAMPLES2READ=4096; % 数据长度
通过MATLAB对数据文件进行读取,得到图像(图3.3)如下:
3.2 MIT—BIH数据库对心血管疾病进行研究
心血管疾病已经成为当今危害人类健康的主要疾病之一,心电图检查是临床上诊断心血管疾病的重要方法。心电图准确的自动分析与诊断对于心血管诊断起着关键的作用,也是国内外学者所热衷的课题。
心电信号是伴随心脏搏动时产生的微弱电信号,是心脏病人病情的一种外在表现。至今,对此微弱信号的提取技术己经相当完善。近几十年来,人们更关心的是如何通过各种方法研究各类心电信号,并找出与之对应的病症关系,以期达到机器自动诊断的目的。
Physiobank数据库是一个以心电数据为主的大型数据库,不仅包含有各种不同类型的心电数据库,如MIT—BIH心律失常数据库还有经过处理的RR间期数据库,为心血管疾病的研究及心率变异性分析方法提供了丰富的数据。
4 总结
PhysioBank数据库是一个公开准确的生物医学信息数据库,其心电数据尤为全面,为各国学者的科研教学及仪器开发提供了重要数据源。该数据库通过在Intemet上的公开数据库的信息资源,实现数据收集和自动更新,达到了数据库的不断完善和进步。
本课题重在基于MATLAB对PhysioBank中数据的识读,同时对PhysioBank的结构和内容及其数据文件进行了详细的介绍。本文以MIT—BIH心律失常数据库为例對其所存心电信号进行识读。
通过本课题的研究对MIT—BIH数据库的结构和内容都有了一定的了解,并且熟悉了MATLAB应用软件的相关操作和数据验证方法,对今后的学习工作提供了很大的帮助。
参考文献:
[1]庞兴梅.PhysioNet信息资源解析及利用.医学信息学杂志.21010年第31卷第7期.
[2]翁剑枫,杨赢.基于MAT LAB语言设计的电生理信号分析系统.中国计量学院学报.2000年6月20卷第一期.
[3]http://www.phsionet.org(EB/OL).
本文重点介绍了运用MATLAB的高性能数值计算和可视化的特点,将数据库PhysioBank中的数据进行识读并且用图表直观地显示出来。以MIT—BIH心律失常数据库的测试波形为例介绍起特定数据格式的识读方法,最后简单介绍了该数据库的相关应用。
关键词:数据库;生理信号;心电图;数据格式
1 PhysioNet的简介
自1999年起,由美国国家卫生研究院(NIH)资助,美国麻省理工学院(MIT)联合波士顿BethIsrael Deaconess医学中心、波士顿大学等单位建立了基于Web 的复杂生理信号和生物医学信号研究资源网站PhysioNet(www.physionet.org),用于促进研究数据和分析软件的交流,激励相关研究人员之间的广泛协作,同时促进新的分析方法和参考数据库的发展。PhysioNet资源网站包括PhysioNet网页,数据库PhysioBank和PhysioToolkit软件库三个相互关联部分(如图1.1)。
PhysioNet同时提供了一个开放式的网络资源平台,可以自由地通过网络访问,免费获取PhysioBank和PhysioToolkit的原始数据和分析工具,发布和交换生物医学信号以及处理信号的开放源码软件,为协作进行数据分析和新算法评估提供便利;同时还通过在线指南对用户如何利用该网络资源提供服务和训练,并设置著作论文、最新进展、讨论、挑战、常见问题等专题。PhysioNet为研究人员提供了一个方便获得临床数据、开发数据分析算法、分享研究成果的平台,为临床教育提供重要的病例资料,内容经过严格的审查,其科学性和严谨性已得到广泛的验证,享有很高的权威性。
2 数据库PhysioBank的介绍
目前,国际上有三个主流的心电数据库,即欧共体定量心电图共同标准(CSE),美国心脏学会(AHA)和美国麻省理工学院(MIT/BIH)的电生理信号数据库。美国国家卫生研究院(NIH)的PhysioBank数据库包含了MIT/BIH及位于世界各国不同研究机构的40多个子库。PhysioBank是一个以心电(ECG)信号为主,核磁共振成像(MRI)等其他资料为辅的科研资源大型数据库,总的数据量超过了110GB。它包含了健康人和病人身上提取的心肺活动、神经系统等多参数生物信号。这些信号涉及一些较为普遍的病症,例如心脏猝死、充血性心力衰竭、癫痫症、睡眠呼吸暂停症等[2]。
由于数据压缩及标准化的考虑,数据库中的数据不能直接使用。其数据格式和工具都是在Unix环境开发的,没有提供通用的Windows程序接口,对习惯Windows编成的研究人员来说很不方便。通常的解决方法有两种:一是使用专门的工具软件PhysioToolkit及函数库,在Unix环境中通过专用分析软件对数据进行操作,这对于没有跨平台操作经验的用户来说,这种方法的可扩展性受到限制;二是用户根据数据存储格式来编写自己的识读程序,由于PhysioBank中的数据格式并不统一,用户首先需要确认所需要的数据的存储格式,之后根据数据格式进行相应的程序编写从而达到对PhysioBank中数据识读的目的。本文主要介绍通过第二种方法对PhysioBank中的数据进行读取。
PhysioBank中的数据资料按其发展的成熟完善程度分为三类:
Classl:具有完备的注释信息,并且经过权威机构的测试。比如MIT一BIH中的心率不齐数据库,已经成为一般ECG识读程序的验证参照。
Class2:是特定研究的数据源副本。这些库由其研究者提供,并经过了相关人员有保留的测试。这类数据库可以验证原作者的相关研究,也可以使用不同的方法与原作者的方法进行比较。这类数据库经过多方面的验证和研究之后,将最终转化为第一类数据库。
Class3:来源于某些研究团体,并且正在用于研究,因此,其数据的成熟性和完备性还不够。但是,这类数据库往往反映了当今的研究方向和技术难题。该数据库的开放可以吸引相关领域的研究者共同开展工作。
3 文件的识读
数据库PhysioBank中每一数据库记录通常包含三个文件(如图3.1)分别是头文件(扩展名为.hea),数据文件(扩展名为.dat),注释文件(扩展名为.atr)。
以美國MIT-BIH心律失常数据库为例,该数据库由48个经过注解的记录组成,其中25个记录的全部数据都可以从互联网上下载,每一个记录时间约为30分钟。
比如MIT—BIH心律失常数据库中的记录100包含三个文件,分别是头文件100.hea,数据文件100.dat,注释文件100.atr。
3.1 MIT—BIH心律失常数据库中的信号识读
MIT-BIH心律失常数据库是由麻省理工学院和Beth Israel医院合作共同建立的数据库,MIT-BIH数据库中数据来自47个个体,包括25个男性和22个女性,共有48个记录,每个记录含30分钟左右的数据片段。数据库中ECG的采样频率为360Hz,采样的精度为11位(数据范围在0-2047之间)。数据库中每条记录都包含两个通道的数据(如图3.2),每个通道采用的导联方法也是不一样的。第一通道是采用校正的肢体II导联,第二通道通常采用校正的V1导联(偶尔有V2、V5导联),正常拍的QRS复合波群形态通常在第一通道上比较明显,在第二通道上则一般很难辨别。目前MIT-BIH数据库中的48条记录都可以从网站中免费获取。 识读过程中首先于数据库中下载所需的信号文件,以MIT—BIH中的100文件为例,在网页http://www.physionet.org/physiobank/database/mitdb/ 中可下载100记录的头文件,数据文件与注释文件。
MIT一BIH心律失常数据库的数据文件应用Format212格式存储,针对这一信号类型设计MATLAB程序可识读其中心电信号。
-------------------- SPECIFY DATA
------------------------------------------------------
PATH='C:\MATLAB7\work\Rwave';%读取的路径
HEADERFILE='100.hea';%头文件设定为100.hea
ATRFILE='100.atr'; %注释文件设定为100.atr
DATAFILE='100.dat'; %数据文件设定为100.dat
SAMPLES2READ=4096; % 数据长度
通过MATLAB对数据文件进行读取,得到图像(图3.3)如下:
3.2 MIT—BIH数据库对心血管疾病进行研究
心血管疾病已经成为当今危害人类健康的主要疾病之一,心电图检查是临床上诊断心血管疾病的重要方法。心电图准确的自动分析与诊断对于心血管诊断起着关键的作用,也是国内外学者所热衷的课题。
心电信号是伴随心脏搏动时产生的微弱电信号,是心脏病人病情的一种外在表现。至今,对此微弱信号的提取技术己经相当完善。近几十年来,人们更关心的是如何通过各种方法研究各类心电信号,并找出与之对应的病症关系,以期达到机器自动诊断的目的。
Physiobank数据库是一个以心电数据为主的大型数据库,不仅包含有各种不同类型的心电数据库,如MIT—BIH心律失常数据库还有经过处理的RR间期数据库,为心血管疾病的研究及心率变异性分析方法提供了丰富的数据。
4 总结
PhysioBank数据库是一个公开准确的生物医学信息数据库,其心电数据尤为全面,为各国学者的科研教学及仪器开发提供了重要数据源。该数据库通过在Intemet上的公开数据库的信息资源,实现数据收集和自动更新,达到了数据库的不断完善和进步。
本课题重在基于MATLAB对PhysioBank中数据的识读,同时对PhysioBank的结构和内容及其数据文件进行了详细的介绍。本文以MIT—BIH心律失常数据库为例對其所存心电信号进行识读。
通过本课题的研究对MIT—BIH数据库的结构和内容都有了一定的了解,并且熟悉了MATLAB应用软件的相关操作和数据验证方法,对今后的学习工作提供了很大的帮助。
参考文献:
[1]庞兴梅.PhysioNet信息资源解析及利用.医学信息学杂志.21010年第31卷第7期.
[2]翁剑枫,杨赢.基于MAT LAB语言设计的电生理信号分析系统.中国计量学院学报.2000年6月20卷第一期.
[3]http://www.phsionet.org(EB/OL).