论文部分内容阅读
近年来,随着机器学习技术的兴起尤其是深度学习技术的蓬勃发展,人类社会迎来了人工智能的黄金时代。在新时代背景下,大量卫生保健数据加速创建,传统医疗正逐渐向智能模式转变。如何从海量电子病历中获得有价值的医学信息,是智慧医疗发展的需求,也是目前构建智慧医疗体系所面临的重大挑战。
相关实验研究表明,大量的准确标注的训练样本是使用机器学习方法获得准确率高、泛化性能好的模型的基础。然而,在医疗领域,对于某些发病率较低的疾病,柱柱没有足够的病例数据。如何从少量的病例样本中泛化罕见的类别,是智能医疗领域的难点问题,同时,也是机器学习领域的热点间题,具有重要的现实意义。
在实际医疗场景下,有两类典型的训练样本数据不足的情况:一类是高度非平衡的病例数据。以产前筛查数据为例,这类数据一般是结构化文本,由于疾病发病率低,阳性样本少,且特征之间具有未知关联性,学习难度很大。另一类是小样本医疗影像数据。由于某些疾病的亚型种类很多,某一类亚型的样本数量相对较少,使用数据饥饿的深度学习框架学习这类图像的时候柱柱会发生过拟合现象,从而致使该类亚型疾病的识别准确率极低。本文主要针对以上两种情况开展相关的研究工作。
对于高度非平衡数据的学习方法研究,本文针对单一的有监督学习和无监督学习方法不能兼顾检出结果的假阳性率和检出率的现象,提出有监督和无监督学习相结合的级联学习方法CVIFLR(Casbaded Framework of Voting Isolation Forests and Logistib Regression)。该方法通过级联的模式,将无监督学习的泛化性和有监督学习的精准性相结合。摆脱了传统的基于重采样技术的非平衡学习方法的模式与弊端,全面提升分类性能。本文使用吉林省产前筛查数据作为实验数据集,在该数据集上对比分析常用的非平衡学习方法,利用CVIFLR框架筛选最优的输人特征组合,训练具有地方特色的产前筛查模型。
对于小样本图像的识别方法研究,本文在对比分析基于度量(Metrib-based)的小样本学习方法的基础上,针对其特征提取网络深度较浅,特征提取能力不足的问题,引人Dense Layer结构。在加深网络深度的同时,提高网络的特征和梯度的传递效率,克服网络加深而产生的过拟合现象。通过对抗学习的方法来训练模型,进一步提高网络的泛化能力和小样本图像识别的准确率。
实验结果表明,本文提出的CVIFLR级联算法,对高度非平衡的文本病例数据有很好的分类效果。在类别比例为阴性:阳性=10244:108的吉林省唐氏综合征产前筛查数据集上的分类性能优于现有的非平衡学习方法,通过参数调整,AUROC可达到0.99。而本文提出的两种原型网络改进算法(DenseP-net,GAN-DPN),能从少量的样本图像中提取具有泛化能力的类别特征,在小样本学习常用的miniImageNet数据集上做5-way1-shot和5-way5-shot分类任务,识别准确率均高于原始的原型网络算法。本文的三个算法为不均衡数据异常发现和小样本图像识别提供了有效方法,在医学、军事、工业等领域都具有一定的应用价值。
相关实验研究表明,大量的准确标注的训练样本是使用机器学习方法获得准确率高、泛化性能好的模型的基础。然而,在医疗领域,对于某些发病率较低的疾病,柱柱没有足够的病例数据。如何从少量的病例样本中泛化罕见的类别,是智能医疗领域的难点问题,同时,也是机器学习领域的热点间题,具有重要的现实意义。
在实际医疗场景下,有两类典型的训练样本数据不足的情况:一类是高度非平衡的病例数据。以产前筛查数据为例,这类数据一般是结构化文本,由于疾病发病率低,阳性样本少,且特征之间具有未知关联性,学习难度很大。另一类是小样本医疗影像数据。由于某些疾病的亚型种类很多,某一类亚型的样本数量相对较少,使用数据饥饿的深度学习框架学习这类图像的时候柱柱会发生过拟合现象,从而致使该类亚型疾病的识别准确率极低。本文主要针对以上两种情况开展相关的研究工作。
对于高度非平衡数据的学习方法研究,本文针对单一的有监督学习和无监督学习方法不能兼顾检出结果的假阳性率和检出率的现象,提出有监督和无监督学习相结合的级联学习方法CVIFLR(Casbaded Framework of Voting Isolation Forests and Logistib Regression)。该方法通过级联的模式,将无监督学习的泛化性和有监督学习的精准性相结合。摆脱了传统的基于重采样技术的非平衡学习方法的模式与弊端,全面提升分类性能。本文使用吉林省产前筛查数据作为实验数据集,在该数据集上对比分析常用的非平衡学习方法,利用CVIFLR框架筛选最优的输人特征组合,训练具有地方特色的产前筛查模型。
对于小样本图像的识别方法研究,本文在对比分析基于度量(Metrib-based)的小样本学习方法的基础上,针对其特征提取网络深度较浅,特征提取能力不足的问题,引人Dense Layer结构。在加深网络深度的同时,提高网络的特征和梯度的传递效率,克服网络加深而产生的过拟合现象。通过对抗学习的方法来训练模型,进一步提高网络的泛化能力和小样本图像识别的准确率。
实验结果表明,本文提出的CVIFLR级联算法,对高度非平衡的文本病例数据有很好的分类效果。在类别比例为阴性:阳性=10244:108的吉林省唐氏综合征产前筛查数据集上的分类性能优于现有的非平衡学习方法,通过参数调整,AUROC可达到0.99。而本文提出的两种原型网络改进算法(DenseP-net,GAN-DPN),能从少量的样本图像中提取具有泛化能力的类别特征,在小样本学习常用的miniImageNet数据集上做5-way1-shot和5-way5-shot分类任务,识别准确率均高于原始的原型网络算法。本文的三个算法为不均衡数据异常发现和小样本图像识别提供了有效方法,在医学、军事、工业等领域都具有一定的应用价值。