论文部分内容阅读
目的:数据挖掘技术在医学中的应用日益广泛,但也面临诸多问题,其中数据冗余及类不平衡分类问题是数据挖掘领域承待解决的问题。本研究基于健康体检大数据,以代谢综合征智能甄别(分类)为切入点,探讨与分析Lasso特征选择与重采样技术在医学领域数据冗余及类不平衡数据分类中的可行性与应用价值。方法:数据来源于乌鲁木齐市某体检机构2014~2016年体检者信息共69267例,以代谢综合征为结果分类指标,诸多体检指标为预测分类指标,代谢综合征与非代谢综合征人群不平衡比例为1:24,以数据挖掘中常用的两种分类方法(C4.5决策树、BP神经网络)为智能分类方法,选用F-value、G-mean及AUC作为分类性能的评价指标,将Lasso特征选择与三种重采样技术(随机过采样、随机欠采样、混合采样)应用于体检代谢综合征分类研究中,通过对比分类性能的差异与分类结果的稳定性,评价Lasso特征选择与重采样技术在医学数据冗余及类不平衡数据分类中的应用可行性。结果:(1)相比原始体检数据,运用Lasso特征选择有效降低体检数据冗余并提高分类性能,体检变量由53个缩减至5个,分别是:葡萄糖测定、高密度脂蛋白胆固醇、中性粒细胞百分比、年龄和血小板平均体积。(2)计算机模拟显示:数据不平衡阻碍机器学习的分类性能,且分类性能随着不平衡比例的加剧而降低;采用重采样技术后的代谢综合征分类性能优于原类不平衡数据,3种重采样技术的分类性能略有不同,随机过采样技术最有助于提高代谢综合征的分类性能。C4.5决策树与BP神经网络的分类性能略有不同,BP神经网络分类性能略优。(3)结合运用Lasso特征选择与重采样技术使得代谢综合征的分类性能得到优化,且通过C4.5决策树分类树状图显示具有一定稳定性。结论:(1)Lasso特征选择能有效降低体检大数据的数据冗余现象,提高分类性能;数据挖掘技术有利于发现医学未知的潜在的相关指标,为医学研究提供参考。(2)采用重采样技术可提高代谢综合征的分类性能,实际应用时可关注随机过采样技术。结合多种数据挖掘技术,在医学大数据挖掘、信息发现及疾病分类中,具有潜在的应用价值。