基于数据增强的生存预测及可靠性评估方法的研究与实现

来源 :山东大学 | 被引量 : 0次 | 上传用户:danyuhong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,基于深度学习模型在电子医疗健康记录(Electronic Health Records,EHR)中进行生存预测的研究成为热点。由于EHR的时间序列特性,很多研究都使用传统的循环神经网络进行模型构建,注意力机制也经常用在研究中,该研究可以帮助医疗从业人员更好地对患者进行临床决策。然而,目前在基于深度学习技术的生存预测任务中,现有的研究面临一些挑战:(1)在实际的医疗数据集中,经常出现很多缺失值,这些缺失值会严重降低数据质量,最终干扰模型预测的效果。并且,大多数现有方法在估算缺失值之后,并不会在生存预测建模中考虑估算值的置信度,而错误地估算缺失变量可能会导致建模困难以及性能下降。(2)大部分的方法都只将模型的注意力放在了全局的时间序列特征的提取,而忽略了部分局部特定信息对患者死亡率预测性能的影响,这将导致模型考虑信息不全面,从而难以精准预测患者死亡率。(3)由于现有的深度学习模型仅输出分类概率,其容易过度自信,并且难以产生有效的不确定性分数,从而影响模型的可靠性,这将导致模型产生不可信的预测结果,可能会误判患者健康情况。因此,为了应对这些挑战,本文以时序EHR数据为基础,对上述问题进行了深入的研究:1.提出了一个基于缺失值补全的生存预测模型(Survival Prediction with Missing Value Imputation for Multivariate Time Series,MTSSP)。该模型提出了一种可以接收掩码矩阵和时间间隔作为补充信息的门控循环单元,此单元可以根据缺失值的缺失情况与缺失时间来实现缺失值的插补,从而增强EHR数据的表征能力;并且在下游的生存预测任务中,本文基于插补完成的数据集,使用一维空洞卷积神经网络与双向循环神经网络分别从局部和全局两个方面对时序EHR进行挖掘,来共同捕获患者的就诊规律,从而提高生存预测模型的性能。2.提出了一个基于VAE与MC Dropout模型的可靠性评估机制。在第一个研究内容的基础上,该机制构造了一个基于变分自编码器(Variational Auto-Encoder,VAE)的循环网络单元结构UN-Cell,它利用VAE在时间递归的同时生成每个缺失变量的均值与方差。单元内部会根据每个变量的方差生成不确定性分数,不确定性分数的提供可以给缺失值补全任务带来更精准的效果。此外,为了实现模型的可靠性,模型需要提供预测的不确定性分数。本文使用蒙特卡洛Dropout(Monte-Carlo Dropout,MC Dropout)方法提供模型预测结果的不确定性分数,实现插补值与模型输出值两个方面的可靠性评估。3.在训练完成的模型基础上,本文设计并实现了一个可以根据患者患病数据预测患者死亡率的预测系统,可以为医护人员提供辅助决策支撑。最后,本文在MIMIC-Ⅲ和MIMIC-Ⅳ两个公开数据集上进行模型的有效性验证。实验结果表明,本文所提的模型能够有效提高生存预测模型的精度。
其他文献
现实生活中,许多社会网络、信息网络、生物网络和技术网络等复杂的网络系统都可以用大规模的图表示。大量研究显示,这些复杂网络都可以分成许多节点组,也就是我们所说的网络划分。这种划分满足如下性质:同一个节点组内节点的联系比不同节点组之间节点的联系更为紧密。具有这种拓扑特性的网络结构称为社区结构,每一个节点组称为一个网络社区。社区结构划分在现实生活中具有重要的应用价值,比如可以用于推荐算法对同一社区内的好
学位
随着校园信息化建设的持续推进,国内外高校逐步累积了海量的学生校园行为数据。如何通过这些数据分析学生的行为习惯,预测其成绩,为学校的教育者、管理者提供建议和指导,成为各个高校关注的热点。学生成绩预测目的是利用学生学习和生活中的历史行为数据来预测其将来的学业表现。学生成绩预测方法可以提前预知学生成绩,为因材施教和个性化教学提供基础。与此同时,学校提前知道可能出现不及格的学生,对这些学生提前干预,为他们
学位
随着社会对环保问题的日益重视,环保行业迎来发展契机,与此同时,国内环保企业面临外部和内部环境的双重压力。宏观环境对环保企业而言既是机遇也是挑战。作为技术密集型行业,吸引和留住人才是环保企业发展的关键,而在这其中,销售团队作为企业与客户沟通的桥梁,更为至关重要。因而如何制定高效的销售人员激励机制,吸引和留住优秀的销售人才,激发销售人员的狼性,为企业创造更大的价值,是所有环保企业亟需解决的问题。销售激
学位
真实世界里,很多材质都不是平坦的,中观尺度上有着复杂的自遮蔽、自反射等物理现象。针织衫温暖的质感、毛毡绒绒的质感,是中观尺度上光线在表面复杂物理过程产生的效果。在图形学的应用领域,如何渲染出足以欺骗肉眼的逼真场景一直是研究的重点。真实感渲染是目前许多行业,比如大型游戏、影视剧特效和广告等行业所追求的目标。要实现逼真的渲染,通常有两类方法:一类是用计算机对复杂的光线传播进行数学建模,要达到精密的建模
学位
近年来,电子商务成为促进国内大循环,畅通国内国际双循环的重要抓手。随着电商经济的发展,跨境商品交易也蓬勃发展起来,我国已成为世界第一大出口国。商家在进行进出口贸易时,必须向海关提供进出口商品的海关编码。海关编码是由国际海关理事会制定的一种国际通用的进出口商品归类体系,是对各种不同商品出入境应征/应退关税税率进行量化管理的制度。目前全球贸易量98%以上使用这一制度,海关编码已成为国际贸易的一种标准语
学位
国内旅游市场在近年来始终保持着高速成长的态势,其中网络便为中国人民的游客出行提供了前所未有的便捷。互联网旅游模式可以完成对旅游出行过程中涉及到的交通、酒店等进行整合,互联互通,创建出一个个完整的旅游产品,使得人们不用跑到线下旅行社,在网站上就可以完成对旅游产品的挑选、购买、在线支付、选座等功能。2020年受新冠疫情的影响,相关政府出台了疫情下的旅游政策,导致一些旅行社因为揽客不足而无法发团出行、销
学位
行政事业单位组织、管理并指挥着国家的各项行政事务,行使政府赋予的各项权力和职能,行政事业单位的服务水平是一个国家政府服务能力的集中体现。经济发展在任何时期都处于最重要的地位,近年来,比起经济发展的速度我们更加注重发展的质量,受疫情等因素的影响,基层各地经济的稳定性受到着威胁,除最直接的主体企业之外,行政事业单位的作用也不容忽视,并且越发重要。在当前的时代背景下,行政事业单位在迎接疫情带来的巨大挑战
学位
随着计算机视觉基础研究的不断发展,目标检测任务一直都是一个热点方向,在机器人设备、工业零件异常检测、监控设备异常人物检测等诸多领域充当辅助任务或主要任务,具有重要的现实意义。计算机视觉任务十分多样化,除了通用目标检测任务外,它还有一些其他的分支,比如人脸检测、行人检测、行人重识别等。由于目标检测在科研和工业中重要的地位,使其成为了近年来的研究热点。深度学习技术的发展速度越来越快,目标检测算法也随之
学位
利用Gleeble-3500热模拟试验机对18CrNiMo7-6齿轮钢进行了等温单道次压缩试验,研究了变形温度为900~1150℃,应变速率为0.01~5 s-1,应变为0.76的条件下材料的热变形行为;并且通过光学显微镜对热变形后的微观组织进行了分析。建立了唯象型Arrhenius本构方程,预测的峰值应力与试验数据具有很好的一致性。高温热变形过程是加工硬化与动态回复以及动态再结晶的竞争过程,在热
期刊
随着基于物理的三维场景渲染技术在影音娱乐、工业设计等行业领域的大范围应用,业界对渲染真实感的要求也越来越高。渲染结果的质量与物体表面纹理材质的表现力密切相关,获取可以精确模拟具有复杂结构的物体表面的材质资源是提高渲染质量的关键。在基于物理的渲染中,我们采用微表面模型将物体表面建模为若干个微观镜面的集合来模拟不同的材质外观,使用法线贴图保存微表面上每个点的法线方向。高质量材质的采集、表示和制作一直是
学位