论文部分内容阅读
随着医疗行业信息化发展,每年都会产生大量的临床医疗信息,且医疗数据资料呈持续爆炸性增长,海量的疾病诊断数据、临床实验数据、居民行为健康数据等汇聚在一起开启了大数据时代的医疗变革。运用数据挖掘技术,发现医疗数据潜在规律和预测其发展趋势,对疾病诊断治疗以及医疗研究等方面有非常重要的价值。心血管疾病是危害全球公共健康的重大问题,严重影响人类的身心健康发展,在全世界范围内,约占全球死亡人数的30%。高血压作为一种常见的慢性心血管疾病,易于引发脑卒中、心力衰竭、肾功能衰竭等预后严重病症,而这些病症发作与多种风险因子相关。如何早发现和有效防控这些风险因子,以及建立预后严重病症事件的风险预警模型,对控制心血管疾病发作有重要意义。国内外有关心血管疾病研究,大多依据已设定实验方案、选定人群和纳入可能的风险因素进行跟踪发现,并不能全面完整有效把握致病因素,且大多数基于医学统计方法,具有一定的局限性。本文基于面向区域医疗和公共健康大数据分析及示范应用项目课题研究,在深圳市历史医疗数据产业积累基础上,通过数据挖掘技术,利用Spark大数据分析平台,以高血压病人为研究对象,慢性心血管疾病与急性心血管事件和心血管功能损害引起的危重病症事件这两类事件作为主要研究内容,分别建立3年时长相关预后严重病症的风险预警模型。本文的主要研究内容及贡献包括以下几个方面:(1)从海量医疗数据中提取有关慢性心血管疾病与急性心血管事件和心血管功能损害引起的危重病症事件这两类事件的三种不同预后严重病症的相关患者,包含脑卒中、心力衰竭及肾功能衰竭,并融合人口统计信息、临床就诊信息,随访信息和个人体检信息等数据资料。(2)基于Spark大数据处理平台,运用数据挖掘技术对海量医疗数据存在的不一致性、冗余性、不完整性以及噪声和错误等数据问题进行数据预处理。(3)基于医疗数据的不平衡性,即患病人群样本数远少于健康人群样本数,采用分层抽样技术,将不平衡数据集转化为平衡数据,并使用z-score规范化,将数据转换为适合数据挖掘的可用形式。(4)应用数据挖掘算法Logistic回归、朴素贝叶斯以及支持向量机基于三组不同预后严重病症数据,包括脑卒中、心力衰竭及肾功能衰竭病症,建立3年时长的风险预警模型,实验结果表明,相比以往传统风险模型,预测效果更好,具有实际应用意义。(5)应用卡方检验,以P-Value<0.05为临床参考标准,筛选出符合临床意义的特征属性。利用SVM-RFE特征选择算法选取最优特征子集,简化和优化模型,实验结果表明,在特征空间显著维数降低情况下,选择的特征子集保证了与全临床特征模型情况相近的分类性能。(6)基于慢性心血管疾病与急性心血管事件和心血管功能损害引起的危重病症事件,我们筛选出相关预后严重病症(脑卒中、心力衰竭、肾功能衰竭)主要的风险因子,这对相关预后严重病症针对性预防具有指导性作用及实际意义。