数据挖掘在体检人群代谢综合征智能甄别中的应用研究

来源 :新疆医科大学 | 被引量 : 0次 | 上传用户:taishengqi_1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的:数据挖掘技术在医学中的应用日益广泛,但也面临诸多问题,其中数据冗余及类不平衡分类问题是数据挖掘领域承待解决的问题。本研究基于健康体检大数据,以代谢综合征智能甄别(分类)为切入点,探讨与分析Lasso特征选择与重采样技术在医学领域数据冗余及类不平衡数据分类中的可行性与应用价值。方法:数据来源于乌鲁木齐市某体检机构2014~2016年体检者信息共69267例,以代谢综合征为结果分类指标,诸多体检指标为预测分类指标,代谢综合征与非代谢综合征人群不平衡比例为1:24,以数据挖掘中常用的两种分类方法(C4.5决策树、BP神经网络)为智能分类方法,选用F-value、G-mean及AUC作为分类性能的评价指标,将Lasso特征选择与三种重采样技术(随机过采样、随机欠采样、混合采样)应用于体检代谢综合征分类研究中,通过对比分类性能的差异与分类结果的稳定性,评价Lasso特征选择与重采样技术在医学数据冗余及类不平衡数据分类中的应用可行性。结果:(1)相比原始体检数据,运用Lasso特征选择有效降低体检数据冗余并提高分类性能,体检变量由53个缩减至5个,分别是:葡萄糖测定、高密度脂蛋白胆固醇、中性粒细胞百分比、年龄和血小板平均体积。(2)计算机模拟显示:数据不平衡阻碍机器学习的分类性能,且分类性能随着不平衡比例的加剧而降低;采用重采样技术后的代谢综合征分类性能优于原类不平衡数据,3种重采样技术的分类性能略有不同,随机过采样技术最有助于提高代谢综合征的分类性能。C4.5决策树与BP神经网络的分类性能略有不同,BP神经网络分类性能略优。(3)结合运用Lasso特征选择与重采样技术使得代谢综合征的分类性能得到优化,且通过C4.5决策树分类树状图显示具有一定稳定性。结论:(1)Lasso特征选择能有效降低体检大数据的数据冗余现象,提高分类性能;数据挖掘技术有利于发现医学未知的潜在的相关指标,为医学研究提供参考。(2)采用重采样技术可提高代谢综合征的分类性能,实际应用时可关注随机过采样技术。结合多种数据挖掘技术,在医学大数据挖掘、信息发现及疾病分类中,具有潜在的应用价值。
其他文献
<正>饲料约占畜禽生产总成本的70%,是影响养殖效益的重要因素。配合饲料的质量好坏,不仅直接影响畜禽生产效益,还影响畜产品的质量与安全及消费者的满意程度。饲料成品的品质
近年来,随着无人机的民用化,采用无人机航拍获取地理信息数据代替以往的人工作业模式成为现实。另一方面,实景自动建模技术的成熟,使进行城市级三维快速建模成为可能。移动互
目的:探讨小婴儿巨细胞病毒(CMV)感染的临床特点及治疗效果。方法:选取2015年3月至2017年5月本院收治的20例CMV感染婴儿的临床资料进行回顾性分析,随机分为两组,治疗组10例,
研究了一维线性标量守恒律初边值问题的弱解,分析了有限元方法的收敛性.通过使用对空间导数的估计、弱紧性和奇异摄动理论证明了有限元方法的收敛性.
1999—09—21台湾集集(23.85^oN,120.78^oE)发生了Ms7.3地震.这次地震前,距震中1800km以外的北京工业大学地震研究所(39.88^oN,116.47^oE)接收到多种非常清晰的临震信号:次声波异常、地应力
通过盆栽试验,探讨嘧啶肟草醚、噁唑酰草胺和丙嗪嘧磺隆施药剂量、施药时期等因素对水直播水稻株高及产量的影响。结果表明:5%嘧啶肟草醚EC 60、80g·hm-2(有效成分,下同)处理