基于FP—Growth算法的糖尿病并发症预测研究

来源 :中国科技博览 | 被引量 : 0次 | 上传用户:y56
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘要]关联规则挖掘是分析糖尿病及其并发症之间关联的重要方式之一,但现有的预测模型存在数据置信度低、变量数目少等问题,导致无法对糖尿病并发症的发病趋势作出有效预报,影响评估和治疗的决策。本文充分考虑了相关因素,并分析了糖尿病基于支持度-置信度框架的局限性,提出了基于兴趣度的FP-Growth算法的糖尿病并发症挖掘算法。
  [关键词]糖尿病并发症;KPCA;数据挖掘;FP-Growth算法
  中图分类号:R311;O157.2 文献标识码:A 文章编号:1009-914X(2018)40-0249-01
  据世界卫生组织统计,糖尿病并发症高达100多种,是目前已知并发症最多的一种疾病。病情的长期发展会导致血糖增高,血管受损并危及心、脑、肾、周围神经、眼睛、足等。因糖尿病截肢的患者是非糖尿病的10~20倍。临床数据显示,糖尿病发病后10年左右,将有30%~40%的患者至少会发生一种并发症,且并发症一旦产生,药物治疗很难逆转,因此强调尽早预防糖尿病并发症。
  我国进行糖尿病的综合防治工作非常的紧迫,防控糖尿病的形式也异常严峻。如果能够掌握糖尿病及其并发症的相关医学影响指标规则,那么就可以对其进行早期的干预和防控。
  1 方法
  FP-Growth是关联分析中一种经典的算法。将提供频繁项集的数据库压缩到一棵频繁模式树,但仍保留项集关联信息,查找存在于项目集合之间的频繁模式、关联、相关性或因果结构。FP-Growth算法的使用可有效降低学习算法的复杂度,加快学习速度,提高学习与分类精度。
  在算法中使用频繁模式树FP-tree的数据结构。FP-tree将事务数据表中的各个事务数据项按照支持度排序后,把每个事务中的数据项按降序依次插入到一棵以NULL为根结点的树中,同时在每个结点处记录该结点出现的支持度。
  步骤描述如下:
  1、对于每个频繁项,构造它的条件投影数据库和投影FP-tree。
  2、对每个新构建的FP-tree重复这个过程,直到构造的新FP-tree为。
  3、当构造的FP-tree为空时,其前缀即为频繁模式;当只包含一条路径时,通过枚举所有可能组合并与此树的前缀连接即可得到频繁模式。
  2 模型建立
  2.1FP-Tree结构的创建
  关联规则算法的效率取决于找出最小支持度的所有频繁集。
  FP-Growth算法中频繁集项的事务将会被压缩到一个FP-Tree上。
  (1)先找到包含e结尾的频繁所有路径,成为前缀路径。
  (2)得到了以e结尾的前缀路径,通过吧节点e相关联的支持度计数相加到e的支持度计数。假设最小支持度计数为2,e的支持度为3所以e是频繁项集。此时需要解决以de,ce,be和ae结尾的频繁项集的子问题。将e的前缀路径树转化成条件FP-Tree,条件FP-Tree是删除了e节点的前缀路径树。
  (3)3条路径分别是null-a:8-c:1-d:1-e:1、null-b:2-e:2-e:1和null-a:8-d:1-e:1,删除不包含e的事务项,得到e的条件FP-Tree,将路径上的计数调整为1;
  (4)删除额外节点,修剪前缀路径。更新后的前缀路上节点b只出现了1次,它的支持度计数为1,这就意味着一个事务同时包含b和e,所以以be结尾的项集都是非频繁的。
  (5)FP-Growth使用e的条件来解决发现de,ce,be和ae结尾的频繁项集的子问题。为发现以de结尾的项集,從项e的条件FP-Tree搜索d的所有前缀路径。将节点d相关联的频度求和,得到项集{d,e}的支持度计数为2。
  (6)重复步骤5构建de的条件FP-Tree,更新支持度计数并删除非频繁的项集,最终产生{a,d,e}频繁集。
  2.2挖掘结果分析
  由于疾病种类较多,需要考虑FP-Growth算法支持度阈值设置。如果阈值设置过高,则很多潜在有意义的规则将会被剪枝。将最小支持度与最小置信度阈值设置为1%和30%。兴趣度阈值最低设置为1。
  基于对置信度和兴趣度阈值的调整,对规则的分析如下。
  (1)频繁集{II型糖尿病,心脑血管疾病}支持度为5.63%,规则{ II型糖尿病}->{心脑血管疾病}的置信度69.728%,即数据集中有5.63%的人同时患有II性糖尿病和心脑血管疾病,在II型糖尿病患者中有69.728%的可能会患有心脑血管疾病,项集{II型糖尿病}和{心脑血管疾病}之间的兴趣度是3.019属于正相关。
  (2)频繁集{II型糖尿病,高血压,肾病}支持度为3.121%,规则{II型糖尿病,高血压}->{肾病}的置信度42.118%,即数据集中有3.121%的人同时患有II性糖尿病,高血压和肾病,在II型糖尿病患者中有42.118%的可能会患有肾病,项集{ II型糖尿病,高血压}和{肾病}之间的兴趣度是3.182属于正相关。
  5 结论
  本文设计了糖尿病及其并发症挖掘系统,实现了糖尿病及其并发症关联规则的研究。提出了基于频繁顺序表的FP-Tree算法结构,通过测试和比较验证了基于改进数据结构的FP-Growth算法有效地提高了计算效率,仿真实验和实际测试得出挖掘模型能有效地过滤关联规则中负相关和弱相关规则。
  参考文献
  [1]覃艳.电子健康档案中糖尿病相关因素的数据挖掘研究[D].电子科技大学,生物医学工程.2013.
  [2]李平.贝叶斯往在糖尿病辅助诊断系统中的应用[D].杭州,浙江工业大学.计算机技术.2013.
  基金项目:大学生创新创业训练计划(X2017330)
其他文献
[摘要]变电站是连接各电网的重要枢纽,其在电能分配、电流流向控制以及电压转换中都具有非常重要的作用。但是,现阶段在110kV变电运行中还是不可避免地会出现各种故障,这些故障不仅会损坏相关设备,甚至还会对整个电网的运行造成较大的影响,所以相关电力部门必须加强110kV变电运行常见故障的研究。文章主要对110kV变电运行常见故障及其对策进行了探究。  [关键词]110kV;变电运行;常见故障;对策  
期刊
[摘要]煤炭是我国的主要能源。“十三五”期间,煤炭行业将更加注重科学发展,更加注重安全生产,更加注重民生与和谐社会建设。加强煤矿班组安全建设,是有效遏制煤矿事故、建设安全高效型矿井、保障矿工生命安全、实现煤炭工业又好又快发展的重要举措。基于此,本文主要以某矿井为背景对班组建设对矿井安全文化的影响进行分析探讨。  [关键词]班组建设;矿井安全文化;影响分析  中图分类号:P58 文献标识码:A 文章
期刊
[摘要]在我国经济飞速发展的形势下,我国境内的路桥工程项目建设数量也不断增多,因此进一步推动了我国的经济和社会发展,道路桥梁工程施工与建设已逐渐受到更多人的关注。现阶段,我国的物流行业发展十分迅速,进而提高了对道路桥梁工程施工质量的要求,因此,相关部门对于道路桥梁工程项目的施工质量控制标准也更加严格,促使施工单位高度重视并采取相应的措施,以提高桥梁工程的施工管理效果。  [关键词]桥梁工程;项目施
期刊
[摘要]阀门是石化装置的重要组成部分,其能否正常工作直接影响着石化装置的应用,目前工业阀门在石化装置中的应用还存在着一些问题。基于此,文章主要先对工业阀门进行了简单的介绍,然后具体探究了几种工业阀门存在的问题及其实际应用,希望能为相关研究人员提供一些参考。  [关键词]工业阀门;石化装置;问题;应用  中图分类号:J51-4 文献标识码:A 文章编号:1009-914X(2018)40-0242-
期刊
[摘要]建设工程是非常复杂而且系统的一项工作,它会牵扯很多方面,比如财务、施工技术、施工材料、设备、管理等多方面的内容,它们都会影响工程的造价。随着互联网技术和计算机技术的不断发展,工程造价管理也在迅速发展BIM(建筑信息模型)作为当下最先进的一种工程管理工具,它大大促进了造价管理效率和质量的提高。基于此,文章从BIM技术入手,详细介绍了BIM技术在建筑工程各阶段工程造价管理中的应用,以供借鉴。 
期刊
[摘要]隨着经济的不断发展,石油作为世界上最重要的不可再生能源之一,对于国家经济发展产生了重要影响,并且也逐渐成为引起世界争端的一个政治性话题。对于能源消耗量较大的汽车,如何才能够做好汽车驾驶节油,就成为降低能源消耗的关键所在。  [关键词]汽车油耗 驾驶 影响因素 节油  中图分类号:G712 文献标识码:A 文章编号:1009-914X(2018)40-0214-01  一、引言  截至201
期刊
[摘要]随着我国工业进程的加快,我国的车载CNG气瓶安装工程施工越来越完善,但是现阶段依然存在一些问题亟待解决。为顺应科技的发展和社会的需求,相关单位应该针对车载CNG气瓶安装需要注意的几个问题采取一定的改善措施,将监督检验的效能和人性化服务提升到新的水平。基于此,下文研究了车载GNG气瓶安装。  [关键词]车载CNG气瓶;安装;监督检验  中图分类号:G712.4 文献标识码:A 文章编号:10
期刊
[摘要]在公路工程建设中最重要的一项基本工作就是测量,主要是按照预期目的和条件,不断的规划设计,实现社会效益的根本依据,工路工程测量在工程建设中发挥着十分重要的作用,本文主要对公路测量采用的方法及内容进行了论述。  [关键词]公路工程;工程测量;问题;对策  中图分类号:F230-4 文献标识码:A 文章编号:1009-914X(2018)40-0245-01  引言:  公路测量是公路工程中一项
期刊
[摘要]建立了番茄中16种有机磷农药残留量的测定方法。番茄中16种有机磷农药残留经2次用乙腈萃取后,采用石英毛细管柱DB-17分离、气相色谱-火焰光度检测器(GC-FPD)进行测定。测定结果:在番茄样品中添加农药浓度为0.1mg/kg-0.2mg/kg时,平均回收率为75.2%-105%,相对标准偏差为1.4%-9.9%,检出限为 0.004mg/kg-0.03mg/kg 。  [关键词]番茄;有
期刊
[摘要]随着社会经济的快速发展,化工企业的生产流程也逐渐以机械代替人工操作,不断实现自动化生产流程。化工行业的快速发展,以及化工自动化生产的脚步不断加快,化工仪表的被广泛使用。但是当前很多化工企业在化工仪表自动化管理方面存在很多的问题,所以需要提高化工企业的化工仪表自动化管理水平。本文通过对当前化工企业在化工仪表自动化管理中存在的不足进行探讨,并针对性地认识、人机结合、管理体系、资金和故障解决等方
期刊