论文部分内容阅读
[摘要]关联规则挖掘是分析糖尿病及其并发症之间关联的重要方式之一,但现有的预测模型存在数据置信度低、变量数目少等问题,导致无法对糖尿病并发症的发病趋势作出有效预报,影响评估和治疗的决策。本文充分考虑了相关因素,并分析了糖尿病基于支持度-置信度框架的局限性,提出了基于兴趣度的FP-Growth算法的糖尿病并发症挖掘算法。
[关键词]糖尿病并发症;KPCA;数据挖掘;FP-Growth算法
中图分类号:R311;O157.2 文献标识码:A 文章编号:1009-914X(2018)40-0249-01
据世界卫生组织统计,糖尿病并发症高达100多种,是目前已知并发症最多的一种疾病。病情的长期发展会导致血糖增高,血管受损并危及心、脑、肾、周围神经、眼睛、足等。因糖尿病截肢的患者是非糖尿病的10~20倍。临床数据显示,糖尿病发病后10年左右,将有30%~40%的患者至少会发生一种并发症,且并发症一旦产生,药物治疗很难逆转,因此强调尽早预防糖尿病并发症。
我国进行糖尿病的综合防治工作非常的紧迫,防控糖尿病的形式也异常严峻。如果能够掌握糖尿病及其并发症的相关医学影响指标规则,那么就可以对其进行早期的干预和防控。
1 方法
FP-Growth是关联分析中一种经典的算法。将提供频繁项集的数据库压缩到一棵频繁模式树,但仍保留项集关联信息,查找存在于项目集合之间的频繁模式、关联、相关性或因果结构。FP-Growth算法的使用可有效降低学习算法的复杂度,加快学习速度,提高学习与分类精度。
在算法中使用频繁模式树FP-tree的数据结构。FP-tree将事务数据表中的各个事务数据项按照支持度排序后,把每个事务中的数据项按降序依次插入到一棵以NULL为根结点的树中,同时在每个结点处记录该结点出现的支持度。
步骤描述如下:
1、对于每个频繁项,构造它的条件投影数据库和投影FP-tree。
2、对每个新构建的FP-tree重复这个过程,直到构造的新FP-tree为。
3、当构造的FP-tree为空时,其前缀即为频繁模式;当只包含一条路径时,通过枚举所有可能组合并与此树的前缀连接即可得到频繁模式。
2 模型建立
2.1FP-Tree结构的创建
关联规则算法的效率取决于找出最小支持度的所有频繁集。
FP-Growth算法中频繁集项的事务将会被压缩到一个FP-Tree上。
(1)先找到包含e结尾的频繁所有路径,成为前缀路径。
(2)得到了以e结尾的前缀路径,通过吧节点e相关联的支持度计数相加到e的支持度计数。假设最小支持度计数为2,e的支持度为3所以e是频繁项集。此时需要解决以de,ce,be和ae结尾的频繁项集的子问题。将e的前缀路径树转化成条件FP-Tree,条件FP-Tree是删除了e节点的前缀路径树。
(3)3条路径分别是null-a:8-c:1-d:1-e:1、null-b:2-e:2-e:1和null-a:8-d:1-e:1,删除不包含e的事务项,得到e的条件FP-Tree,将路径上的计数调整为1;
(4)删除额外节点,修剪前缀路径。更新后的前缀路上节点b只出现了1次,它的支持度计数为1,这就意味着一个事务同时包含b和e,所以以be结尾的项集都是非频繁的。
(5)FP-Growth使用e的条件来解决发现de,ce,be和ae结尾的频繁项集的子问题。为发现以de结尾的项集,從项e的条件FP-Tree搜索d的所有前缀路径。将节点d相关联的频度求和,得到项集{d,e}的支持度计数为2。
(6)重复步骤5构建de的条件FP-Tree,更新支持度计数并删除非频繁的项集,最终产生{a,d,e}频繁集。
2.2挖掘结果分析
由于疾病种类较多,需要考虑FP-Growth算法支持度阈值设置。如果阈值设置过高,则很多潜在有意义的规则将会被剪枝。将最小支持度与最小置信度阈值设置为1%和30%。兴趣度阈值最低设置为1。
基于对置信度和兴趣度阈值的调整,对规则的分析如下。
(1)频繁集{II型糖尿病,心脑血管疾病}支持度为5.63%,规则{ II型糖尿病}->{心脑血管疾病}的置信度69.728%,即数据集中有5.63%的人同时患有II性糖尿病和心脑血管疾病,在II型糖尿病患者中有69.728%的可能会患有心脑血管疾病,项集{II型糖尿病}和{心脑血管疾病}之间的兴趣度是3.019属于正相关。
(2)频繁集{II型糖尿病,高血压,肾病}支持度为3.121%,规则{II型糖尿病,高血压}->{肾病}的置信度42.118%,即数据集中有3.121%的人同时患有II性糖尿病,高血压和肾病,在II型糖尿病患者中有42.118%的可能会患有肾病,项集{ II型糖尿病,高血压}和{肾病}之间的兴趣度是3.182属于正相关。
5 结论
本文设计了糖尿病及其并发症挖掘系统,实现了糖尿病及其并发症关联规则的研究。提出了基于频繁顺序表的FP-Tree算法结构,通过测试和比较验证了基于改进数据结构的FP-Growth算法有效地提高了计算效率,仿真实验和实际测试得出挖掘模型能有效地过滤关联规则中负相关和弱相关规则。
参考文献
[1]覃艳.电子健康档案中糖尿病相关因素的数据挖掘研究[D].电子科技大学,生物医学工程.2013.
[2]李平.贝叶斯往在糖尿病辅助诊断系统中的应用[D].杭州,浙江工业大学.计算机技术.2013.
基金项目:大学生创新创业训练计划(X2017330)
[关键词]糖尿病并发症;KPCA;数据挖掘;FP-Growth算法
中图分类号:R311;O157.2 文献标识码:A 文章编号:1009-914X(2018)40-0249-01
据世界卫生组织统计,糖尿病并发症高达100多种,是目前已知并发症最多的一种疾病。病情的长期发展会导致血糖增高,血管受损并危及心、脑、肾、周围神经、眼睛、足等。因糖尿病截肢的患者是非糖尿病的10~20倍。临床数据显示,糖尿病发病后10年左右,将有30%~40%的患者至少会发生一种并发症,且并发症一旦产生,药物治疗很难逆转,因此强调尽早预防糖尿病并发症。
我国进行糖尿病的综合防治工作非常的紧迫,防控糖尿病的形式也异常严峻。如果能够掌握糖尿病及其并发症的相关医学影响指标规则,那么就可以对其进行早期的干预和防控。
1 方法
FP-Growth是关联分析中一种经典的算法。将提供频繁项集的数据库压缩到一棵频繁模式树,但仍保留项集关联信息,查找存在于项目集合之间的频繁模式、关联、相关性或因果结构。FP-Growth算法的使用可有效降低学习算法的复杂度,加快学习速度,提高学习与分类精度。
在算法中使用频繁模式树FP-tree的数据结构。FP-tree将事务数据表中的各个事务数据项按照支持度排序后,把每个事务中的数据项按降序依次插入到一棵以NULL为根结点的树中,同时在每个结点处记录该结点出现的支持度。
步骤描述如下:
1、对于每个频繁项,构造它的条件投影数据库和投影FP-tree。
2、对每个新构建的FP-tree重复这个过程,直到构造的新FP-tree为。
3、当构造的FP-tree为空时,其前缀即为频繁模式;当只包含一条路径时,通过枚举所有可能组合并与此树的前缀连接即可得到频繁模式。
2 模型建立
2.1FP-Tree结构的创建
关联规则算法的效率取决于找出最小支持度的所有频繁集。
FP-Growth算法中频繁集项的事务将会被压缩到一个FP-Tree上。
(1)先找到包含e结尾的频繁所有路径,成为前缀路径。
(2)得到了以e结尾的前缀路径,通过吧节点e相关联的支持度计数相加到e的支持度计数。假设最小支持度计数为2,e的支持度为3所以e是频繁项集。此时需要解决以de,ce,be和ae结尾的频繁项集的子问题。将e的前缀路径树转化成条件FP-Tree,条件FP-Tree是删除了e节点的前缀路径树。
(3)3条路径分别是null-a:8-c:1-d:1-e:1、null-b:2-e:2-e:1和null-a:8-d:1-e:1,删除不包含e的事务项,得到e的条件FP-Tree,将路径上的计数调整为1;
(4)删除额外节点,修剪前缀路径。更新后的前缀路上节点b只出现了1次,它的支持度计数为1,这就意味着一个事务同时包含b和e,所以以be结尾的项集都是非频繁的。
(5)FP-Growth使用e的条件来解决发现de,ce,be和ae结尾的频繁项集的子问题。为发现以de结尾的项集,從项e的条件FP-Tree搜索d的所有前缀路径。将节点d相关联的频度求和,得到项集{d,e}的支持度计数为2。
(6)重复步骤5构建de的条件FP-Tree,更新支持度计数并删除非频繁的项集,最终产生{a,d,e}频繁集。
2.2挖掘结果分析
由于疾病种类较多,需要考虑FP-Growth算法支持度阈值设置。如果阈值设置过高,则很多潜在有意义的规则将会被剪枝。将最小支持度与最小置信度阈值设置为1%和30%。兴趣度阈值最低设置为1。
基于对置信度和兴趣度阈值的调整,对规则的分析如下。
(1)频繁集{II型糖尿病,心脑血管疾病}支持度为5.63%,规则{ II型糖尿病}->{心脑血管疾病}的置信度69.728%,即数据集中有5.63%的人同时患有II性糖尿病和心脑血管疾病,在II型糖尿病患者中有69.728%的可能会患有心脑血管疾病,项集{II型糖尿病}和{心脑血管疾病}之间的兴趣度是3.019属于正相关。
(2)频繁集{II型糖尿病,高血压,肾病}支持度为3.121%,规则{II型糖尿病,高血压}->{肾病}的置信度42.118%,即数据集中有3.121%的人同时患有II性糖尿病,高血压和肾病,在II型糖尿病患者中有42.118%的可能会患有肾病,项集{ II型糖尿病,高血压}和{肾病}之间的兴趣度是3.182属于正相关。
5 结论
本文设计了糖尿病及其并发症挖掘系统,实现了糖尿病及其并发症关联规则的研究。提出了基于频繁顺序表的FP-Tree算法结构,通过测试和比较验证了基于改进数据结构的FP-Growth算法有效地提高了计算效率,仿真实验和实际测试得出挖掘模型能有效地过滤关联规则中负相关和弱相关规则。
参考文献
[1]覃艳.电子健康档案中糖尿病相关因素的数据挖掘研究[D].电子科技大学,生物医学工程.2013.
[2]李平.贝叶斯往在糖尿病辅助诊断系统中的应用[D].杭州,浙江工业大学.计算机技术.2013.
基金项目:大学生创新创业训练计划(X2017330)