论文部分内容阅读
【摘要】目的:分析某企业高血压主要危险因素,建立发病预测模型。方法:利用某企业2006-2016年体检的大数据,采用广义估计方程筛选高血压病的危险因素,采用BP神经网络模型建立高血压发病预测模型。结果:BP神经网络模型对各自变量对预测高血压的重要性依次为体检年龄、体重指数、性别、混合型高脂血症、饮酒习惯、高甘油三酯血症、吸烟习惯、饮食习惯,经过验证对高血压病有较好的预测能力。结论:BP神经网络模型能够较好的解决多因子复杂疾病预测问题,具有较好的预测效果。本研究对高血压病的主要危险因素的重要性排序,可对该疾病干预提供依据。
【关键词】BP神经网络;高血压;危险因素;变量
Abstract Objective: To analyze the main risk factors and incidence prediction of hypertension in an enterprise. Methods: Generalized estimation equations were used to analyze single-factor analysis and multi-factor analysis, and BP neural network model was used to analyze the physical examination data of 180363 hypertensive patients detected by 512,000416 persons. Results: The importance of the main risk factors of chronic diseases was ranked, and the importance of BP neural network model to the prediction of hypertension in each variable was medical examination age, body mass index, gender, mixed hyperlipidemia, drinking habits, and high triglyceride blood. Disease, smoking habits, eating habits. The ability to recognize high blood pressure is better than the ability to high blood pressure. Conclusion: The BP neural network model can better solve the multi-factor complex disease prediction problem, has a better prediction effect and the importance ranking of the main risk factors, and provides a basis for developing disease intervention.
Keywords: BP neural network, hypertension, risk factors, variables
前言
高血壓是心血管疾病的主要危险因素,近年来我国高血压患病率呈明显上升趋势,高血压是由多基因遗传和多种环境不良因素交互作用而成,其长期发展可导致动脉粥样硬化病情的发展及形成加速,引发心肌缺血、缺氧及坏死,形成冠心病。多个危险因素的联合作用导致了高血压疾病的发生,影响慢性病发生的危险因素它们之间往往存在复杂的非线性关系。BP(Back Propagation)网络是1986年由Rumelhart和McCelland为首的科学家小组提出,是一种按误差逆传播算法训练的多层前馈网络,是目前应用最广泛的神经网络模型之一。BP网络能学习和存贮大量的输入-输出模式映射关系,而无需事前揭示描述这种映射关系的数学方程。人工神经网络(artifieial neural networks,ANN)可以更好地揭示这些变量间的关系,通过数据挖掘可以分析多个变量对结果变量的作用大小,更好地揭示这些变量间的关系,预测疾病发生概率。本研究就是运用这种模型预测高血压。
1 对象与方法
1.1 研究对象
选取2006年1月-2016年12月,年龄18岁以上某企业员工在职与退休员工51.2416万人次的体检数据。
1.2 研究内容
本研究从年龄、性别、行为生活方式、体检监测指标等方面,进行高血压风险因素相关性分析,对有统计学意义的变量建立预测模型,并进行自变量的重要性分析。
1.3 研究方法
为确定本研究中所使用的变量,分别对各年组高血压进行广义估计方程分析单因素分析和多因素分析,对有统计学意义的变量建立预测模型,并进行自变量的重要性分析,筛选有意义的变量纳入BP神经网络模型,采用多层感知器方法进行高血压模型构建,通过对比ROC曲线下面积验证预测效果,
1.3.1 广义估计方程(generalized estimating equations,GEEs) 是Liang和Zeger (1986)在广义线性模型的基础上提出来主要被应用于水平数为两水平的纵向观察资料的分析,用于分析存在相关性数据的一种回归模型。
1.3.2 BP 神经网络模型人工神经网络(Artificial Neural Network,ANN)是通过对人脑的基本单元——神经元的建模和联结,来探索模拟人脑神经系统功能的模型,其信息处理是通过信息样本对神经网络的训练,使其具有人的大脑的记忆、辨识能力,完成各种信息处理功能。它的学习规则是使用最速下降法,通过反向传播来不断调整网络的权值和阈值,使网络的误差平方和最小。BP神经网络模型拓扑结构包括输入层(input)、隐层(hide layer)和输出层(output layer)(如图1所示)。 [1]Lee DS,Massaro JM, WangTJ, et aL. Antecedent blood pressure,body mass index,and the risk of incident heart failure in later life[J]. Hypertension, 2007, 50:869-87621.
[2]Lim SS,Vos T,Flaxman AD,et a1.A comparative risk assessment of burden of disease and injury attributable to 67 risk factors and risk factor clusters in 21 regions, 1990- 2010: a systematic analysis for the Global Burden of Disease Study 2010[J].Lancet,2012,380 (9859):2224-2260.
[3]王隴德.中国居民营养与健康状况调查报告[M].北京:人民卫生出版社,2005.53-57.
[4]孙蓉,顾建建,孙峰等江苏省自然人群高血压患病率及相关因素分析[J]. 江苏临床医学杂志。2002 ,6(6):534-536
[5] 曾坪,罗森林,吴曦. 社区人群主要行为因素与高血压的相关性分析[J ]. 临床合理用药杂志,2009,2(9):28-30.
[6]王丽娜,曹丽,张敬一,等河北省成年居民高血压病状况及相关因素分析[J ].中国慢性病预防与控制,2008,16(2):1148-1152.
[7]毛浩丹,吴建方,周义红,等常州市农村地区人群高血压流行病学调查[J ].疾病控制杂志,2005,9(5):406-408.
[8]张良均,曹晶,蒋世忠.神经网络实用教程[M].北京:机械工业出版社,2008:31-36.
[9]Taghadomisaberi S,Omid M,Emamdjomeh Z,et al.Determinationof cherry color parameters during ripening by artificial neuralnetwork assisted image processing technique[J].J Agr SciTechnol,2015,17(3):589-600.
[10]Türkyilmazi,Ka?an K.License plate recognition system usingartificial neural networks[J].ETRI J,2017,39(2):163-172.
[11]JovanovicL, Gondos B,Type 2 diaberes;the epidemic of the new millennium .Ann Clin Lab Sci,1999,29:33--42
[12]高飞,高焱莎.我国高血压流行病学现状[J].中日友好医院学报,2012,26(5):307-309.
[13]种冠峰,相有章.中国高血压病流行病学及影响因素研究进展[J].中国公共卫生,2010,26(3):301-302.
[14]高飞,高炎莎.我国高血压流行病学现状[J].中日友好医院学报,2012,26(5):307-309.
【关键词】BP神经网络;高血压;危险因素;变量
Abstract Objective: To analyze the main risk factors and incidence prediction of hypertension in an enterprise. Methods: Generalized estimation equations were used to analyze single-factor analysis and multi-factor analysis, and BP neural network model was used to analyze the physical examination data of 180363 hypertensive patients detected by 512,000416 persons. Results: The importance of the main risk factors of chronic diseases was ranked, and the importance of BP neural network model to the prediction of hypertension in each variable was medical examination age, body mass index, gender, mixed hyperlipidemia, drinking habits, and high triglyceride blood. Disease, smoking habits, eating habits. The ability to recognize high blood pressure is better than the ability to high blood pressure. Conclusion: The BP neural network model can better solve the multi-factor complex disease prediction problem, has a better prediction effect and the importance ranking of the main risk factors, and provides a basis for developing disease intervention.
Keywords: BP neural network, hypertension, risk factors, variables
前言
高血壓是心血管疾病的主要危险因素,近年来我国高血压患病率呈明显上升趋势,高血压是由多基因遗传和多种环境不良因素交互作用而成,其长期发展可导致动脉粥样硬化病情的发展及形成加速,引发心肌缺血、缺氧及坏死,形成冠心病。多个危险因素的联合作用导致了高血压疾病的发生,影响慢性病发生的危险因素它们之间往往存在复杂的非线性关系。BP(Back Propagation)网络是1986年由Rumelhart和McCelland为首的科学家小组提出,是一种按误差逆传播算法训练的多层前馈网络,是目前应用最广泛的神经网络模型之一。BP网络能学习和存贮大量的输入-输出模式映射关系,而无需事前揭示描述这种映射关系的数学方程。人工神经网络(artifieial neural networks,ANN)可以更好地揭示这些变量间的关系,通过数据挖掘可以分析多个变量对结果变量的作用大小,更好地揭示这些变量间的关系,预测疾病发生概率。本研究就是运用这种模型预测高血压。
1 对象与方法
1.1 研究对象
选取2006年1月-2016年12月,年龄18岁以上某企业员工在职与退休员工51.2416万人次的体检数据。
1.2 研究内容
本研究从年龄、性别、行为生活方式、体检监测指标等方面,进行高血压风险因素相关性分析,对有统计学意义的变量建立预测模型,并进行自变量的重要性分析。
1.3 研究方法
为确定本研究中所使用的变量,分别对各年组高血压进行广义估计方程分析单因素分析和多因素分析,对有统计学意义的变量建立预测模型,并进行自变量的重要性分析,筛选有意义的变量纳入BP神经网络模型,采用多层感知器方法进行高血压模型构建,通过对比ROC曲线下面积验证预测效果,
1.3.1 广义估计方程(generalized estimating equations,GEEs) 是Liang和Zeger (1986)在广义线性模型的基础上提出来主要被应用于水平数为两水平的纵向观察资料的分析,用于分析存在相关性数据的一种回归模型。
1.3.2 BP 神经网络模型人工神经网络(Artificial Neural Network,ANN)是通过对人脑的基本单元——神经元的建模和联结,来探索模拟人脑神经系统功能的模型,其信息处理是通过信息样本对神经网络的训练,使其具有人的大脑的记忆、辨识能力,完成各种信息处理功能。它的学习规则是使用最速下降法,通过反向传播来不断调整网络的权值和阈值,使网络的误差平方和最小。BP神经网络模型拓扑结构包括输入层(input)、隐层(hide layer)和输出层(output layer)(如图1所示)。 [1]Lee DS,Massaro JM, WangTJ, et aL. Antecedent blood pressure,body mass index,and the risk of incident heart failure in later life[J]. Hypertension, 2007, 50:869-87621.
[2]Lim SS,Vos T,Flaxman AD,et a1.A comparative risk assessment of burden of disease and injury attributable to 67 risk factors and risk factor clusters in 21 regions, 1990- 2010: a systematic analysis for the Global Burden of Disease Study 2010[J].Lancet,2012,380 (9859):2224-2260.
[3]王隴德.中国居民营养与健康状况调查报告[M].北京:人民卫生出版社,2005.53-57.
[4]孙蓉,顾建建,孙峰等江苏省自然人群高血压患病率及相关因素分析[J]. 江苏临床医学杂志。2002 ,6(6):534-536
[5] 曾坪,罗森林,吴曦. 社区人群主要行为因素与高血压的相关性分析[J ]. 临床合理用药杂志,2009,2(9):28-30.
[6]王丽娜,曹丽,张敬一,等河北省成年居民高血压病状况及相关因素分析[J ].中国慢性病预防与控制,2008,16(2):1148-1152.
[7]毛浩丹,吴建方,周义红,等常州市农村地区人群高血压流行病学调查[J ].疾病控制杂志,2005,9(5):406-408.
[8]张良均,曹晶,蒋世忠.神经网络实用教程[M].北京:机械工业出版社,2008:31-36.
[9]Taghadomisaberi S,Omid M,Emamdjomeh Z,et al.Determinationof cherry color parameters during ripening by artificial neuralnetwork assisted image processing technique[J].J Agr SciTechnol,2015,17(3):589-600.
[10]Türkyilmazi,Ka?an K.License plate recognition system usingartificial neural networks[J].ETRI J,2017,39(2):163-172.
[11]JovanovicL, Gondos B,Type 2 diaberes;the epidemic of the new millennium .Ann Clin Lab Sci,1999,29:33--42
[12]高飞,高焱莎.我国高血压流行病学现状[J].中日友好医院学报,2012,26(5):307-309.
[13]种冠峰,相有章.中国高血压病流行病学及影响因素研究进展[J].中国公共卫生,2010,26(3):301-302.
[14]高飞,高炎莎.我国高血压流行病学现状[J].中日友好医院学报,2012,26(5):307-309.