论文部分内容阅读
老年保健人群为党和国家建设做出了巨大的贡献。利用现代社会先进医疗技术、信息技术和管理手段,延长老年保健人群寿命,提高老年保健人群生活质量,为该人群提供一个系统、无缝、主动的保健模式是各医疗保健机构任务之一。自改革开放以来,随着社会经济的快速发展,人民生活水平的不断提高,心脑血管疾病已成为危害我国老年人群身心健康的第一“杀手”。目前,心脑血管疾病防治多基于临床经验,包含太多主观成分,且缺乏量化,尤其对发病率高低不能进行准确预测。为了弥补人工决策的不足,各种疾病预测预警模型研究应运而生。但目前国内外大多数预测模型多为没有心脑血管疾病背景的中年人若干年(一般是10年)的风险概率预警,而没有老年人的预测模型,特别是缺血性心脑血管病(ischemic cardiovascular disease,ICVD)的预测模型国内外尚未见报道。老年保健人群对医疗保健期望高,但因年龄大,基础疾病多,危险因素暴露时间长,各危险因素之间相互作用关系复杂,疾病预测更加困难。建立此类人群疾病风险预警模型必须考虑所患疾病的整体性、复杂性、动态性以及各危险因素之间的非线性协同作用,传统预警模型很难满足这些要求,而人工神经网络方法以其独特的整体性、系统性、非线性、自学习性、自组织性和极强的容错性等特点,以及并行性信息处理的方法,在危险因素识别、信号处理、辅助决策等众多研究领域取得了显著成效,是目前处理复杂非线性问题的主要方法之一。本研究利用人工神经网络强大的分类与预测功能,研究开发出针对老年保健人群ICVD发病风险的预警模型,用以解决老年保健人群ICVD早期预警关键问题,期望为老年保健人群保健工作和老年人健康管理工作提供科学合理的解决方案。目的和意义:1.进一步明确老年保健人群罹患ICVD的危险因素,并进行描述性分析。2.利用误差逆向传递学习(Back Propagation)人工神经网络(以下简称BP人工神经网络)拟合仿真老年保健人群ICVD的预测模型。3.建立老年保健人群ICVD的Cox比例风险回归模型。4.建立基于BP人工神经网络的老年保健人群的ICVD的预测模型。并把预测值与实际患病情况相比较,检验两模型的判别能力、预测准确性以及两模型在个体、群体水平的预测能力。国内外关于老年人ICVD的预警模型研究尚未见报道,本研究旨在进一步明确老年保健人群罹患该病的危险因素,开发出以这些危险因素为自变量的基于BP人工神经网络模型的预测模型。在充分利用、开发和整理我国特有的干部保健人群的医疗记录的基础上,构建科学实用的资料数据库,重点进行老年保健人群常见重大疾病的早期预警模型研究,并在此基础上开展符合本人群特点的健康促进模式的研究,探索和制定一系列相配套的规范化诊疗程序、综合防治措施和科学管理办法,为临床医疗的循证保健和规范防治提供理论依据和具有可操作性的工作指南,为决策机关制定医疗保健的宏观策略提供信息技术支撑。方法:基线人群为2003年5月,在某保健医院数据库记录在案的、出生于1938年1月1日前(即基线年龄大于65岁)的所有保健对象。数据来源有四个渠道:2003年5月的体检资料、历年住院资料、问卷调查资料和电话回访资料。数据随访的截止日期为2009年10月,随访期为6年零4个月(以下简称6年)。数据收集采取了查询电子病历和纸质病例相结合、客观指标测量与问卷调查相结合、现场调查与电话回访相结合的方式,充分挖掘了研究对象的诊疗信息,着重对体检数据、问卷调查数据进行质量控制。结合国内外研究综述、专家咨询结果、数据库实际情况,本研究纳入预测模型的危险因素有:基线时年龄、体重指数(BMI)、收缩压(SBP)、血总胆固醇浓度(TC)、血甘油三酯浓度(TG)、血高密度脂蛋白浓度(HDL-C)、血肌酐浓度(Scr)、血载脂蛋白A1浓度(ApoAⅠ)、糖尿病和吸烟。为减少偏性,建模时剔除女性(ICVD阳性事件例数少)和基线时已患有ICVD的男性,按照4:1的比例随机分组基线人群,生成训练组和测试组。分别用BP人工神经网络模型和COX比例风险回归模型拟合各自最优模型。最优模型确定后,将测试人群基线资料分别回代生成预测值。用受试者工作特征曲线(Receiver Operating characteristic Curve,以下简称ROC曲线)下面积大小检验预测模型的判别能力优劣;用Hosmer-Lemeshow检验比较每十分位分组的预测发病率和实际发病率来判断模型预测的准确性;将预测6年老年保健人群ICVD发病风险人群均值与实际观察到的6年累计发病率进行比较,计算误差率,来验证和比较预测模型在群体水平的预测能力。使用Epidata 3.1软件设计数据录入系统,使用Stata 9/SE软件进行数据清洗、数据分析、绘制图表、建立COX比例风险回归模型,使用Matlab7.0软件构建BP人工神经网络模型。结果:1.本研究最终基线人群为2271名65岁以上的老年人,全部为男性,累计观察12852.8人年。在观察期内,因ICVD住院523人(23.03%),因其它原因住院1499人(66.01%),未住院249人(10.96%);在观察期内,因ICVD死亡81人(3.57%),因其它原因死亡370人(16.29%)。ICVD人年发病率为41.63/千人年,累计发病率为23.56%,ICVD累计死亡率为3.57%,ICVD死亡人年率为6.30/千人年。观察期内,按发病系统统计排名前四位的疾病分别是:消化系统疾病、缺血性心血管病、缺血性脑血管病、循环系统疾病(不含ICVD)。心血管疾病发病人数占总人数的比重达到了34.91%,缺血性心脑血管发病人数占心血管发病人数的比重达到了69.86%。从发病排名前十名的病种来看,脑梗死、心肌梗死排名分别是第一、第二。从死亡的疾病病种来看,排名前四名的病种及其占死亡者的百分比分别是:脑梗死35例(7.76%)、心肌梗死32例(7.10%)、上呼吸道感染17例(3.77%)、慢性支气管炎集中发作17例(3.77%),脑梗死及心肌梗死是主要的致死病种。2.使用寿命表法进行生存分析:ICVD的发病率逐年增高,生存概率逐年下降,第5-6年的失效概率最高,是ICVD的高发期。3.危险因素与ICVD事件的单因素分析表明:与ICVD事件正相关的变量是:SBP、BMI、TG、TC、ApoAⅠ、糖尿病、吸烟;与ICVD事件负相关的变量是:HDL-C、Scr。4.构建BP人工神经网络预测模型:将训练数据随机分为训练数据、校验数据,其中训练数据1400人,校验数据417人。使用Matlab7.0编程实现变量值的归一化处理、网络初始化、网络训练、网络仿真。输入层输入神经元的个数与输入变量的个数相同,为10个。隐含层设计为1层,本研究尝试建立了隐单元数从5到15的11个预测模型,通过试验法并结合ROC曲线下面积为筛选最优模型的指标。经过反复训练,当隐单元数为8时,网络训练速度最快,网络震荡小,很快达到预期训练误差,ROC曲线下面积达到最大值,网络此后逐步减小,提示网络判别能力的下降,到隐单元数为12时又缓慢上升,但网络训练速度变慢。训练数据与校验数据ROC曲线下面积的差值也在当隐单元数为8时最小。本研究最终确立隐单元数为8的BP人工神经网络模型为最优模型。输出层设计为1层,输出变量有3个:分别是6年内是否发病,发病则为1,不发病则为0;从基线时到ICVD事件发生的潜隐期;6年ICVD的累计发病率。该网络测试数据的网络仿真结果较好,当训练到7401步时,下降梯度为0,达到要求,训练误差为:0.0923879;隐单元数为8的网络结果最佳,其R值达到了0.914。5.构建COX比例风险回归模型:把年龄分为两层(大于等于75岁称高龄组;小于75岁称老龄组)时,将除年龄之外的其余不符合正态分布的连续变量仿照弗明汉研究取自然对数值后进行PH(Proportional Hazards)检验,每层的自变量都满足了PH假定,按年龄段作为分层因素引入全部危险因素建立分层COX比例风险回归模型。结果表明:对于老龄组来说,统计学意义显著的危险因素自变量是:年龄、ln(SBP)、ln(Scr)、ln(空腹血糖),保护因素是:ln(HDL-C);对于高龄组来说,统计学意义显著的危险因素自变量是:ln(BMI)、ln(SBP)、ln(TC)、ln(Scr)、ln(空腹血糖),保护因素自变量是:ln(HDL-C)。根据单因素分析和多因素分析的结果,剔除多因素和单因素分析回归系数不显著的自变量,建立分层COX比例风险回归模型。老龄组COX比例风险回归模型最终引入的危险因素自变量是:年龄、ln(SBP)、ln(HDL-C)、ln(Scr)、ln(空腹血糖);高龄组COX比例风险回归模型最终引入的危险因素自变量是:ln(BMI)、ln(SBP)、ln(TC)、ln(HDL-C)、ln(Scr)、ln(空腹血糖)。老龄组6年基线风险概率h(6)=0.254,高龄组h(6)=0.328。6.模型的验证与比较:将测试组基线资料分别代入最优BP人工神经网络模型和分层COX比例风险回归模型来预测该人群6年间ICVD的发病风险,并与实际的6年发病率比较,绘制ROC曲线。BP人工神经网络模型ROC曲线下面积(AUC)及95% CI为0.892(0.870~0.914),COX比例风险回归模型ROC曲线下面积(AUC)及95% CI为0.723(0.687~0.759),BP人工神经网络模型的判别能力要优于COX比例风险回归模型。将个体按预测ICVD累积发病率从小到大排序,并按十分位数分组,比较每一组预测概率的平均值和实际的累积发病率,BP人工神经网络模型的Hosmer-Lemshow检验:χ2=0.82 , P=0.896 , COX比例风险回归模型的Hosmer-Lemshow检验:χ2=1.43,P=0.786。除第10组预测率高于实际率外,其它组都是预测率略低于实际率。整体上看,两个模型预测都比较准确。预测人群实际累积发病率为26.43%,COX比例风险回归模型预测发病率的平均值为25.84%,误差率为-2.23%;BP人工神经网络模型预测发病率的平均值为26.42%,误差率仅为-0.04%,BP人工神经网络模型群体水平的预测能力优于COX比例风险回归模型。结论:1.通过对老年保健人群观察期内ICVD发病和死亡分析,可以看出:ICVD成为老年保健人群慢性病最主要的病种。老年保健人群ICVD发病率高,潜隐期较短,病程较长,疾病负担较重。因此,防治ICVD是老年保健人群健康管理工作的重心之一。2.通过单因素和多因素分析,SBP、空腹血糖、TC水平是ICVD事件最主要的危险因素,血高密度脂蛋白浓度是最主要的保护因素,因此,控制血压血糖、控制TC水平、提高HDL-C是预防未来ICVD事件的必要措施。3.本研究将BP人工神经网络应用于老年保健人群ICVD 6年发病率预测,与经典COX比例风险回归模型相比较,BP人工神经网络方法在疾病预测时充分考虑疾病的整体性、动态性和复杂性,凸显其在复杂数据处理时的整体性、系统性、非线性、并行性、自学习性、自组织性和极强容错性等优点。研究进一步发现BP人工神经网络模型的判别能力、预测的准确性、个体、群体水平的预测能力都要优于COX比例风险回归模型,而且对原始数据要求不严、对使用者统计学背景知识要求不高、对缺失数据容错性好、对变量筛选比较宽泛、使用过程方便,易于理解,因此具有一定的应用推广价值。