论文部分内容阅读
大于胎龄儿是指出生体重在相同胎龄平均体重的第90百分位以上(约相当于平均体重的2个标准差以上)的婴儿。大于胎龄儿本身容易产生多种并发症,且产妇容易产生各类产伤。因此,建立大于胎龄儿预测模型对大于胎龄儿进行早期诊断及干预,具有重要意义。除此此外,大于胎龄儿分型的研究顺应精准医疗的理念,有助于提高大于胎龄儿诊治的效益。在医疗领域中,机器学习用于疾病预测、疾病分型等已有许多成功的案例,这为大于胎龄儿预测与分型模型的建立带来了启发。主要采用2010年到2013年之间收集到的新生胎儿数据记录作为样本,运用机器学习技术对大于胎龄儿疾病进行预测及分型。对大于胎龄儿预测及分型的研究主要分为数据处理、疾病预测、疾病分型三部分。第一步数据处理主要是为了解决由于样本信息收集的原始性与真实性带来的问题。这些问题包括样本特征类型复杂、标准不一致、数据缺失、信息重叠、数据不平衡、标签不明等。具体应用到了数据清洗、数据集成、数据规约、数据变换,以及专家知识、特征独立、低方差过滤等特征选择方法。第二步运用数据处理后的数据集构造大于胎龄儿分类器,采用稀疏逻辑回归模型获得分类结果及解释性强的相关特征,采用梯度提升树模型挖掘特征与分类结果的非线性关系,采用弱监督学习利用未标记与标记混淆的数据对大于胎龄儿分类器进行补充和泛化。第三步使用正样本、借助聚类方法,对大于胎龄儿进行分型。利用有监督方法得到的最优大于胎龄儿预测模型召回率为0.66,精准率为0.94,曲线下面积为0.89。使用未标记与标记混淆的数据弱监督学习后,分类器召回率为0.82,精确率为0.965,曲线下面积为0.89。发现双方体重指数、是否吸烟(被动吸烟)、有无生活工作压力、饮酒与大于胎龄儿发生与否相关,此外双方在最佳生育年龄、血红蛋白等指标正常时胎儿更不容易患病。分型得到两个大于胎龄儿亚型,一类与男女双方肌酐、女方血红蛋白、女方体重指数、叶酸服用情况等身体指标相关,另一类则与男女双方年龄、男女双方职业、男女双方教育程度等社会指标相关。利用大于胎龄儿预测领域的相关理论知识、真实数据,运用机器学习方法,得到效果良好预测分类器,发掘出与大于胎龄儿发生相关的特征,得到两类模糊亚型。这有利于帮助医生进行大于胎龄儿诊断,且模型具有一定的可解释性,实现了辅助临床的目标。