医疗场景中训练本不足情况的机器学习方法研究与应用

来源 :吉林大学 | 被引量 : 0次 | 上传用户:drifter
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着机器学习技术的兴起尤其是深度学习技术的蓬勃发展,人类社会迎来了人工智能的黄金时代。在新时代背景下,大量卫生保健数据加速创建,传统医疗正逐渐向智能模式转变。如何从海量电子病历中获得有价值的医学信息,是智慧医疗发展的需求,也是目前构建智慧医疗体系所面临的重大挑战。
  相关实验研究表明,大量的准确标注的训练样本是使用机器学习方法获得准确率高、泛化性能好的模型的基础。然而,在医疗领域,对于某些发病率较低的疾病,柱柱没有足够的病例数据。如何从少量的病例样本中泛化罕见的类别,是智能医疗领域的难点问题,同时,也是机器学习领域的热点间题,具有重要的现实意义。
  在实际医疗场景下,有两类典型的训练样本数据不足的情况:一类是高度非平衡的病例数据。以产前筛查数据为例,这类数据一般是结构化文本,由于疾病发病率低,阳性样本少,且特征之间具有未知关联性,学习难度很大。另一类是小样本医疗影像数据。由于某些疾病的亚型种类很多,某一类亚型的样本数量相对较少,使用数据饥饿的深度学习框架学习这类图像的时候柱柱会发生过拟合现象,从而致使该类亚型疾病的识别准确率极低。本文主要针对以上两种情况开展相关的研究工作。
  对于高度非平衡数据的学习方法研究,本文针对单一的有监督学习和无监督学习方法不能兼顾检出结果的假阳性率和检出率的现象,提出有监督和无监督学习相结合的级联学习方法CVIFLR(Casbaded Framework of Voting Isolation Forests and Logistib Regression)。该方法通过级联的模式,将无监督学习的泛化性和有监督学习的精准性相结合。摆脱了传统的基于重采样技术的非平衡学习方法的模式与弊端,全面提升分类性能。本文使用吉林省产前筛查数据作为实验数据集,在该数据集上对比分析常用的非平衡学习方法,利用CVIFLR框架筛选最优的输人特征组合,训练具有地方特色的产前筛查模型。
  对于小样本图像的识别方法研究,本文在对比分析基于度量(Metrib-based)的小样本学习方法的基础上,针对其特征提取网络深度较浅,特征提取能力不足的问题,引人Dense Layer结构。在加深网络深度的同时,提高网络的特征和梯度的传递效率,克服网络加深而产生的过拟合现象。通过对抗学习的方法来训练模型,进一步提高网络的泛化能力和小样本图像识别的准确率。
  实验结果表明,本文提出的CVIFLR级联算法,对高度非平衡的文本病例数据有很好的分类效果。在类别比例为阴性:阳性=10244:108的吉林省唐氏综合征产前筛查数据集上的分类性能优于现有的非平衡学习方法,通过参数调整,AUROC可达到0.99。而本文提出的两种原型网络改进算法(DenseP-net,GAN-DPN),能从少量的样本图像中提取具有泛化能力的类别特征,在小样本学习常用的miniImageNet数据集上做5-way1-shot和5-way5-shot分类任务,识别准确率均高于原始的原型网络算法。本文的三个算法为不均衡数据异常发现和小样本图像识别提供了有效方法,在医学、军事、工业等领域都具有一定的应用价值。
其他文献
西兰卡普流传于湖南湘西为主的我国土家族聚居地区,它是土家族传统文化的精髓之一,被列为国家级少数民族非物质文化遗产保护名录,具有较高的研究价值。随着时代的发展,西兰卡普作为我国传统的民间手工艺术,如何与时俱进并适应社会的发展,有待进一步的考察与研究。  首先,本课题通过对西兰卡普有关文献资料以及民俗考察的分析梳理,从西兰卡普的概念入手,简述其基本应用形式、历史发展概况以及保护开发情况。进而对西兰卡普
学位
信息技术的发展推动着国内高校信息化的建设,大多数高校基本形成了部门业务系统和校园信息平台相结合的应用和资源建设。为了解决现有信息平台面临的问题——师生需要在多个地点或不同的信息系统去完成相对应部门业务的问题,国内一些高校将“用户可以在一次接触中完成其所需的事务”的一站式服务理念引入到高校管理中,建立了高校一站式服务平台。  但现有的一站式服务平台并没有很好地解决高校管理面临的困境,多数高校程序部门
随着我国玩具行业的迅速发展,衍生品模型玩具成为玩具市场的热点,越来越多的设计师意识到创新设计理论的重要性。而针对占有很大市场份额的机甲人偶类衍生玩具,学术界对该方向的设计研究还不是很充分。本文的研究目的是从产品符号学的角度,对动漫衍生品下属的机甲人偶类玩具设计作出系统的解释。  本论文首先介绍了符号学的部分概念以及符号学的理论体系。在此基础上,尝试对机甲人偶衍生品的造型语言进行分析。并使用语意差异
松嫩平原是世界三大苏打盐碱土地区之一,其土壤中高CO32-/HCO3-含量和pH值胁迫以及低氮营养胁迫使得植物难以生存,进而形成独特的碱斑形态。然而,本研究观察到在碱斑裸地上可以按照碱蓬→碱茅→羊草的顺序逐渐恢复植被群落,而植被根际微生物多样的代谢功能可能正是减轻上述苏打盐碱土多种胁迫作用的关键因素。因此,本研究以位于松嫩平原盐碱地长期试验基地的裸地碱斑土壤、恢复的碱蓬、碱茅和羊草根际土壤为对象,
硒是人体必需的微量元素之一,具有多种生物学功能,目前已知人体的40多种疾病都与缺硒有关。中国缺硒省份多达22个,缺硒地区面积占国土总面积的72%。调查结果显示,我国成人日均硒摄入量与国际硒学会推荐的日最低摄入量相差甚远。人体所获得的硒90%来源于食物,通过提高农作物可食用部分的硒含量,进食生物硒是最为安全有效的补硒途径。黄瓜(Cucumis sativusL.)对硒有一定的富集能力,作为我国设施栽
学位
该文主要从机理与实验两个角度出发研究新型低温催化吸附剂——活性炭纤维(ACF)的脱硫性能,主要内容如下:通过一些物理化学的分析手段对ACF进行了表面与结构表征.通过BET比表面积方法分析了ACF的孔的分布以及吸附等温线;通过X射线光电子能谱(XPS)分析对ACF进行了表面元素分析,并利用能谱图对ACF活化前后的结构变化进行了比较充分的研究与推测.ACF的动态脱硫性能实验.分别进行了GAC、ACF动
学位
城市轨道交通具有运量大、安全、便捷等优点,是解决各城市交通拥堵问题的首选方法。随着我国城轨运营里程快速增加,其城轨再生制动能量回馈系统也大量随之投入运行。城轨再生制动能量回馈系统运行环境复杂多变,频繁的处于开、停机状态,并且受到较高电压的冲击。因此,在实际运行中,再生制动能量回馈系统中逆变器的功率元件IGBT极易发生故障。通常逆变器中IGBT故障主要包括IGBT短路故障和IGBT开路故障。由于IG
学位
风机的偏航系统用于驱动机舱旋转,保持桨叶对准风向,以获取最大的风能。早期,偏航系统多采用电机开关直投方式驱动机舱,当机舱与风向角度相差超过15度时,直接投入驱动电机以调整偏航角度,但直投方式必然带来电流和机械冲击。机械冲击导致齿轮磨损,使得偏航系统机械寿命缩短,维护成本增加;电流冲击会导致开关跳闸,无法偏航,只能通过人工恢复。采用变频控制技术可以消除直投偏航电机带来的问题,本论文开发用于偏航系统的
学位
随着人类社会发展对能源需求的不断增加,化石能源短缺的问题逐渐引起了人们的重视。可再生能源以分布式电源的形式规模化地接入到配电网中,改变了配电网的拓扑和潮流。在配电网发生故障后,对配电网的安全可靠运行提出了新的要求。  本文通过调研分析国内外现行配电网故障区段定位方法,基于遗传算法以及粒子群算法,提出了一种新的含分布式电源的配电网故障定位方法,论文主要工作如下:  首先给出了分布式电源的简介,包括风
学位
该论文主要研究配电网规划,包括配网网架规划和配网重构,以及为之服务的负荷预测.配网网架规划又包括水平年网架规划和多阶段网架规划.对负荷预测,主要介绍了负荷预测的常用方法和各种方法的优缺点,并提出改进的人工神经元网络法用于负荷预测,以及算法实现和算例分析.对配网网架规划和配网重构,在综合各种方法的优缺点的基础上,提出了改进的多种群遗传算法用于配网网架规划和配网重构.并针对配网的特殊约束条件,提出了行