论文部分内容阅读
院内感染在医疗领域是一个受到广泛关注的话题,事关住院病人的身体健康和医院的医疗质量。人工智能和机器学习方法与院内感染相结合的研究,近年来在学术界和工业界颇受关注。传统的研究方法对于院内感染的预测和分类都是基于训练数据集是一个基本平衡的理想状态,这与事实不符。与医疗诊断,信用卡欺诈检测,文本类别检测等领域的研究问题一样,本文的研究主题,院内感染预测,也存在着数据分类的不平衡性问题。数据不平衡性问题是指数据集中的一类样本远大于其他类样本,结合本研究,也就是没有患感染的住院病人的数量远大于患感染的住院病人数量,而这种数据不平衡性会影响模型的性能,严重时甚至会使分类性能急速下降。本文主要从以下两个方面降低院内感染预测模型受不平衡性问题的影响。一方面是基于生成对抗网络的生成器生成大量少类样本弥补数据的不平衡性,并且考虑生成数据的信息量对模型的影响,本文提出一种基于生成对抗网络和主动学习方法解决数据不平衡性问题的主动学习框架,activeG框架。此框架在主动学习选点策略中提出一种基于生成数据的批处理查询采样策略。采样标准不仅考虑了信息论中的信息熵理论,而且考虑到生成数据与真实样本之间的相似性差异,二者相结合可以很好地为训练集优先选择合适的生成数据而排除其中噪音数据点的干扰。与传统的解决数据不平衡性方法不同,此方法不仅会为训练集中的少类样本带来更多的具有多样性和所含信息量较大的样本,而且在数据层面能够用生成数据代替真实敏感数据,从而做到隐私保护。这些样本与真实的少类样本在结构上极为相似,且有利于分类模型决策边界的调整。另一方面,为了提高生成数据的质量,本文提出用主动学习选点的方式为生成对抗网络的训练数据进行采样,这些选出的质量较好的数据点将会提高生成器的少类生成样本的质量。并基于此在activeG框架的基础之上提出了双重主动学习方案ALGAAL。此方案用基于信息熵理论的不确定性采样提高了生成器的输入训练数据质量,从而改善了生成器模型,提高了生成数据的质量。使基分类器模型准确率得到进一步优化提高。本文研究院内感染预测数据不平衡性问题从生成数据的信息量和质量两个角度出发。利用生成模型和主动学习方法,分别提出了两个用于解决院内感染数据不平衡性问题的框架。里面涉及到的算法主要包括各基分类器的算法,生成对抗网络的算法和主动学习选点方式的策略算法。本文不仅为解决数据的不平衡性问题提出了相应的方案,而且用主动学习方法降低了训练模型时的迭代开销,从而最大化提高模型的分类准确率和效率。