基于不平衡数据的主要心脏不良事件预测方法研究

来源 :新疆大学 | 被引量 : 0次 | 上传用户:falconcarmack
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
冠心病作为危害人类身体健康的重大疾病之一,其患病率及死亡率不断上升,已成为医学界亟待解决的问题。近年来,随着医疗信息化水平不断提高,在电子病历中存储了大量的冠心病患者病情的描述信息,这为预测和评估患者在住院期间发生主要心脏不良事件提供重要参考依据。然而,目前对中文电子病历中主要心脏不良事件预测的研究相对较少,并且由于不良事件的描述信息存在着数据不平衡现象,导致现有研究的预测结果存在偏差。针对以上问题,本文综合运用自然语言处理、深度学习等技术,在构建语料库基础上,研究主要心脏不良事件的预测方法,同时对数据不平衡问题进行优化,为临床实践提供参考。本文的主要贡献有:(1)提取患者特征,构建主要心脏不良事件语料库。首先,收集新疆某三甲医院5965名患者的入院记录和病程记录作为实验数据,对非结构化入院记录进行预处理,并结合临床实际制定了标注指南,完成标注工作。然后,利用Bi-LSTMCRF结合特征合并策略,提取入院记录中的患者特征105项,并对其准确性进行评估,F值达到0.914。最后,通过4名研究生人工标注病程记录中发生的不良事件,统计得到发生患者有1580例,未发生患者有4385例,完成语料库的构建。(2)针对不平衡数据会造成预测效果存在偏差的问题,提出了将重采样与迭代增强框架结合的预测方法。将带权重采样并入迭代增强框架,对少数类样本使用Borderline SMOTE方法进行过采样,对多数类样本数据进行欠采样,循环利用获得的平衡子集训练弱分类器,纠正之前错分的样本,构建强分类器。为全面评估模型预测性能,实验分别构建了三组不同比例的数据集,并与三种基线模型进行了对比实验。实验结果表明,该方法在数据存在不平衡时,少数类样本的评估指标维持在0.690-0.705之间,不会随着不平衡的加剧而降低,验证了方法的有效性。(3)为进一步提高预测准确度,提出了一种基于CNN-Bi-LSTM-Attention的主要心脏不良事件预测方法。本文为了挖掘特征中更多的上下文信息,同时避免RNN带来的梯度爆炸或梯度消失问题,将特征经过CNN卷积之后作为Bi-LSTM神经网络的输入;接着,引入注意力机制凸显关键特征的影响力,减少无关特征的干扰。实验在已构建的语料库和Framingham公开数据集上进行,结果表明,预测准确率比未引入注意力机制提高了4.1%。此外,经临床医生评估,本文提取的前15项影响主要心脏不良事件的危险因素对临床诊断具有一定的指导意义。
其他文献
相比于整数阶微积分,分数阶微积分能更有效地解决实际问题。众所周知,Riemann-Liouville、Caputo型分数阶积分定义是在对整数阶积分进行n次迭代的基础上所得到的,两者的导数定义都依赖于分数阶积分。而后来T.Abdeljawad所定义的Conformable分数阶导数,只取决于导数的极限定义。紧接着,F.Jarad在对Conformable分数阶积分进行n次迭代的基础上得到了New C
高温相Fe3O4是一种典型的尖晶石铁氧体,也是一种亚铁磁性的半金属材料,它具有相结构简单稳定、耐氧化、100%自旋极化率、金属-绝缘体转变特性、磁阻效应与霍尔效应等优点而得
激光水下打孔具有打孔效率高的优势,但打孔过程中激光与小孔和水三者的相互作用致水迁移促使熔渣大量排出过程的研究仍十分有限。本文针对激光水下作用过程,研究了孔径为数百
新数字时代,国家电力投资集团有限公司主要从企业秩序体系、价值传播方法体系、文化落地工具体系三个方面,对企业文化建设进行不断创新和优化,促进企业高质量发展。当下,由数
“明显不当”作为一项新的司法审查根据被纳入到新修订的《行政诉讼法》中,表明行政自由裁量问题纳入司法审查的深度与广度得到进一步拓展。作为一种对行政裁量行为的判断标准,“明显不当”是行政合理性原则在司法实践中的具体适用。但由于我国立法及相关司法解释的空缺,对于什么是“明显不当”,它的性质及其司法认定标准,学术界与实务界尚未达成统一认识,缺乏一致定论。在司法实务中,行政处罚作为最重要的一类行政行为,也是
我国电网建设不断发展,复合绝缘子以其体积小、重量轻、耐污性能好等特点,在输电线路工程中的应用日益增多。随着复合绝缘子服役的时间增长以及自然环境的综合作用,复合绝缘子的伞裙材料会逐渐老化,并导致憎水性能下降,引发污闪。因此,复合绝缘子憎水性等级识别工作对于确保输电线路的安全稳定运行极为重要。截止当前,复合绝缘子憎水性等级识别的实际工程应用中,利用数字图像处理技术识别复合绝缘子憎水性等级已成为了主流技
常德话属于西南官话,虽地处湖南,却属于北方方言体系,其第一人称代词“玩”/uan/和“玩安”/uanηan/在发音和语法上都极具地方特色。随着常德话和普通话的频繁接触,该方言第
正电子扩散行为是制约图像分辨率的主要因素。当正电子从PET系统中的核素中发射出来时,会同时与电子,声子和其他基本粒子发生一系列的物理过程,如非弹性碰撞和扩散。因此,正
我国是世界上最大的甘薯生产国,甘薯具有低脂、低热量和高纤维等优点,近年研究发现甘薯中多糖含量较丰富并且具有抗氧化、降血糖血脂、抗肿瘤等活性,可广泛应用于食品、医药
植物器官在生长介质中的分布方式,即为植物的形态构型。植物形态构型的不同会对植物本身生长机能带来不同的影响。农作物表型参数和生长规律的研究,尤其是农作物三维空间数据的采集与数据处理对于观测农作物生长状态、优质配种和提高农作物的产量具有非常重要的实用价值和理论指导意义。通过农作物表型参数的采集,建立农作物的三维模型可以帮助人们更好的了解和掌握影响农作物生长的原因,从而有效提高农作物的产量,因此农作物的