利用人工神经网络模型预测原发性高血压的研究

来源 :中国医科大学 | 被引量 : 0次 | 上传用户:youwdw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
前言原发性高血压(essential hypertension, EH)是常见的心血管疾病之一,近年来,随着我国经济发展,生活节奏明显增快,产生了一系列的不健康的生活方式,导致我国心脑血管疾病死亡率、发病率和患病率持续上升。高血压既是一种独立的疾病,又是引发心脑血管疾病的重要危险因素,发生高血压危象及高血压脑病等严重并发症时可危及生命。因此,高血压的防治工作不容忽视。国内外研究表明,高血压是一种多因子疾病,致病因素多,各因素间关系复杂,是高血压研究的重要特点。目前疾病预测的方法以传统的Logistic回归(Logistic regression, LR)为主,Logistic回归模型要求变量满足独立性且不能处理变量之间的共线性问题。因此,应用Logistic回归模型进行预测高血压这样的复杂疾病具有一定的局限性。人工神经网络(Artificial Neural Networks,ANNs),简称为神经网络(NNs),是模拟生物神经网络进行信息处理的一种数学模型。神经网络具有强大的解决共线性效应和变量间的交互作用的能力,善于处理非线性的、模糊的、含有噪声的数据情况。目前,人工神经网络在医学上的应用还远没有传统的Logistic回归那么广泛。本研究所选择的现场是辽宁省彰武县农村,经调查该人群高血压标化患病率高达35%,全国罕见。本研究利用这些调查数据建立BP人工神经网络(backpropagation ANNs)预测模型,并与Logistic回归模型进行比较,利用受试者工作特征曲线(receiver operator characteristic curve, ROC曲线)评价人工神经网络模型的预测性能。以探讨和评价ANNs用于疾病预测的效果和特点,为高血压等复杂疾病的预测探索新的方法,同时对农村高血压病的防治也有一定的参考价值。研究对象与方法一、研究对象的选择本研究利用之前在辽宁省彰武县农村进行的EH流行病学调查的资料进行统计、预测分析。该调查采用整群多级随机抽样的方法总计调查5208人,最后30岁以上常住人群共计4126名调查对象被纳入本次研究,其中女1942人,男2184人。二、调查内容和检测指标在现场以问询和测量的方式填写调查表,调查内容主要包括:一般特征,吸烟史,饮酒史等;测量血压、体重、身高等现场每人采血5ml(隔夜空腹),经离心后分离血清,分装冰冻保存用于血清指标检测。三、诊断标准和测量方法:高血压诊断是根据1999年WHO/ISH公布的高血压诊断标准:收缩压≥140mmHg和/或舒张压≥90 mmHg或既往确诊的原发性高血压者。血压测量及其他血清生化检测指标由专业医护人员在标准条件下进行测量。胆固醇、甘油三酯、HDL、LDL、血清钠、血清钾、血清铁、血清钙等指标的水平采用日本第一化学提供的7150型全自动生化分析仪,用比色法进行分析。血糖水平采用美国强生公司生产的稳捷基础型血糖分析仪,用滴血法进行分析。四、神经网络模型的建立ANNs模型采用含有一个隐含层的三层BP神经网络模型。模型输入层的神经元为单因素分析中P<0.05的与高血压相关的因素,输出层有1个神经元(即按照诊断标准判断研究对象是否患高血压),隐含层的神经元个数通过实验根据均方误差择优确定。隐含层的激活函数为tansig,输出层的激活函数为logsig。本研究将4126例资料按照性别、年龄进行均衡后按3:1的比例随机分为训练总集(3096例)和测试集(1030例)两部分,分别用于模型的建立和测试。为了防止ANNs过渡拟合,在ANNs模型的训练过程中,又将训练总集(3096例)按3:1的比例随机分为训练集(2334例)和检验集(762例),利用检验集时时地检查训练效果。五、资料统计分析方法用Matlab7.1软件编程建立ANNs预测模型。用spss13.0统计软件建立二分类非条件Logistic回归的高血压预测模型和绘制模型预测识别的ROC曲线。预测概率的判别标准为0.5,即p≥0.5时预测结果为患高血压,否则为不患高血压。统计学显著性水平规定为α=0.05。结果一、非条件单因素Logistic回归模型进行高血压预测对调查数据进行高血压的单因素分析,筛选出p<0.05的因素作为预测模型的输入变量,共22个因素与高血压有关。二、非条件多因素Logistic回归模型进行高血压预测(一)建立非条件多因素Logistic回归模型对训练总集的3096例样本进行非条件多因素Logistic回归分析,将单因素筛选出的指标作为自变量(身高、体重已转化为BMI故未进入模型),以研究对象是否患高血压为因变量建立多因素Logistic回归模型。模型采用最大似然估计前进法进行逐步回归分析,入选变量的标准是p<0.05,剔除变量的标准是p>0.10。经逐步回归后,共有9个因素进入模型,模型改善情况检验(x2=4.335)和整个模型检验(x2=1439.457)。整个训练总集的分类一致率为78.42%,特异度为80.45%,灵敏度为76.62%,(二)利用非条件多因素Logistic回归模型预测用上述Logistic回归模型预测测试集(1030例)研究对象是否患高血压。经模型预测,测试集一致率为77.48%,特异度为80%,灵敏度为74.85%。三、BP神经网络模型进行预测(一)建立BP神经网络模型建立一个三层的BPANNs模型,以单因素筛选出的全部22个因素作为输入变量,其隐含层设为22个神经元,输出层1个神经元(即是否患EH)。目标误差取0.01,学习速率取0.1,最大训练周期2000。经过17步训练,此时训练中均方误差MSE为0.126262,梯度Gradient为137.276/le-010,网络的训练由于检验集均方误差达到极小值而结束。测试训练好的BPANNs模型的拟合效果,训练集的分类一致率为81.06%,检验集的分类一致率为77.95%,整个训练总集的分类一致率为80.30%,特异度为84.48%,灵敏度为76.16%。(二)利用BP神经网络模型进行预测用上述BPANNs模型预测测试集(1030例)研究对象是否患高血压,测试结果见表5。其测试集分类一致率为78.83%,特异度为81.57%,灵敏度为76.42%。四、BP神经网络模型与Logistic回归模型高血压预测比较(一)预测结果的比较神经网络模型的分类一致率、灵敏度、特异度均高于Logistic回归模型。(二)ROC曲线面积比较利用SSPS13.0绘出多因素Logistic回归模型和BPANNs模型的ROC曲线,多因素Logistic回归模型的ROC曲线下面积为0.782,95%可信区间为[0.768,0.797],BPANNs模型的ROC曲线下面积为0.800,95%可信区间为[0.786,0.814]。讨论高血压的病因复杂,影响高血压患病的危险因素是多方面的,一些危险因素之间可能存在交互作用、多重共线性,这些复杂的关系影响预测模型的拟合,严重干扰了高血压的预测和病因研究工作。因此本研究利用辽宁省彰武县农村人群的调查资料建立高血压的神经网络预测模型,并与传统方法的Logistic回归模型相比较,以探讨神经网络模型预测高血压发病的能力。神经网络模型建立过程中各函数、参数的设置并没有统一的标准,需要针对具体问题具体分析。本研究建立的模型是以误差反向后传学习算法而得名的BP神经网络,它是医学领域应用最广泛的一种神经网络,集中体现了神经网络中最精华的部分。因为对于任何在闭区间内的一个连续函数都可以用单隐含层的BP神经网络逼近,所以本研究采用了含有一个隐含层的三层BP神经网络。考虑到输入层神经元个数过多对样本量的要求较高,所以只选择了与高血压密切相关的因素作为输入变量,即单因素分析中p<0.05的因素。对于输入变量中的多分类变量(如民族)采取设置哑变量的处理方法,以方便模型更好的利用数据信息。隐含层的神经元个数和训练函数是根据试验来确定的,试验显示,相对于其他取值,神经元个数为22训练函数为trainlm时均方误差既小又稳定,网络的初始权值取(0~1)区间的随机数,由于初始值不同建立ANNs模型也不同,所以经多次试验选出最优的模型。为了避免过度拟合,本研究利用检验集在训练过程中随时监督训练。在本研究中,神经网络模型的分类一致率、灵敏度、特异度均高于Logistic回归模型,Logistic回归模型的分类一致率为77.48%,神经网络模型为78.83%。可以看出神经网络模型的预测能力略优于Logistic回归模型。本研究利用ROC曲线来评价两种模型的预测效果,Logistic回归模型和ANNs模型的AUC分别为0.782,0.800,同样提示,对于高血压这样的致病因素多而且各因素间关系复杂的疾病,神经网络模型的拟合效果略好一些。神经网络尚存在一些问题有待解决。首先,神经网络的建立随着参数、函数、初始值等的设置而变化,这些设置的正确性缺乏理论依据,只能依靠经验和试验来确定;其次,神经网络不能像Logistic回归模型那样有一个公认的模型输入变量的准入和剔出原则;再次,各因素对因变量作用的医学解释尚不明确,以及其假设检验方法和可信区间等问题仍有待进一步研究。结论试验表明对于高血压这样的复杂疾病,神经网络预测模型的预测能力略优于Logistic回归模型。因此可以作为Logistic回归模型的必要补充,神经网络在复杂疾病的预测方面具有广阔应用前景。
其他文献
国际化既是大学竞争力的重要维度,还是提升高等教育竞争力的重要策略。本文首先基于国际化已有理论建构了国际化动因-策略分析框架,并结合美国高等教育国际化参与主体及其阶
20世纪90年代末期,北欧五国的基础教育领域相继发起了新一轮的课程改革。此次课程改革一方面源于时代的挑战,另一方面则来自于北欧民众对本国基础教育质量的深切关注,改革的
<正> 羌活,性味辛温,升发向上,味薄气雄,能宣痹通阳、畅通血脉。临床用羌活治胸痹心痛,常获显效。笔者对寒凝血脉者,以羌活为主药,以达宣痹通阳、散寒行瘀、通络止痛之功效。
基于问卷调查研究,探讨了新课改下语文学科"有效教学"缺失的表现与成因,并基于调查结果的分析,针对性地提出了对策与建议。
本研究从建构主义的视角入手,以《经济学家》(The Economist)2003-2009年间的涉华报道为研究样本,采用数据统计和内容分析的方法,对媒介国家形象“他塑”问题,即外国媒介塑造
員工組織沉默(Employee’s Organizational Silence)是指員工對組織潛在問題保留個人覲點的行為。本研究運用間卷調查法收集资料,採用探索性因素分析、驗證性因素分析、方差分
服装是人类社会发展到一定时期为满足自身需要而创造的一种物质产品,其内涵也随着社会生产的发展和文明的进步而不断丰富。服装既是一种商品,又是人们表达自我意识的载体。它
<正> “什么是艺术?”是一个很久以来人们一直提出的问题,也是一个从来没得出人人都能赞同的答案的问题。现在,你也许知道了,此书也将不会给你一个最终的答案。为什么没有一
随着我国首部《禁毒法》的实施,禁毒、戒毒治疗和康复工作越来越受到重视,关于吸、戒毒人员的心理状况也得到了更多戒毒机构和研究者的关注。目的:运用量化研究探讨戒毒人员生
<正> 近些年来,艺术家比颜料商更加注意留心去寻找另外一些物质来作为他们的绘画材料。罗伯特·劳申伯格曾说:“一双短袜与木板、指甲、松节油、织品等材料一样适用于绘画。