基于深度学习的卒中诊疗文本信息提取方法研究及应用

来源 :海军军医大学 | 被引量 : 0次 | 上传用户:yh820927
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
一、研究背景:
  脑卒中(Stroke)在我国已经成为头号死因,增加了国家医疗卫生负担。在过去的十年,随着医疗水平的不断发展,脑卒中的预后有所改善,其患病率和发病率仍在持续上升,给社会造成巨大经济负担。现有研究表明脑卒中患者中,由于提供急性脑卒中护理、查明脑卒中的原因及预防脑卒中并发症一般在入院的第一周内完成,因此以往的研究一般将脑卒中患者大于6到8天的住院时长定义为长时间住院,而长时间住院是住院费用增加的独立影响因素,虽然患者住院时间越长,能够接受治疗的时间越久,但是患者预后不一定好。研究长时间住院(大于7天)的影响因素及预测是否长时间住院有助于合理分配医疗资源,提高床位使用的灵活性,从而降低管理成本和医疗护理成本,并可以依据这些因素为患者制定个性化诊疗途径和规划出院计划,以减少患者住院时长,提高患者及其家属的满意度。
  电子病历是真实世界大数据中质量较高的部分,包含了结构化数据、半结构化数据和非结构化数据,其中非结构化部分信息所占比重大,占总量的80%以上,然而其利用率低,无法直接用于传统的统计分析。目前自然语言处理技术(Natural Language Processing, NLP)已经被广泛应用于从非结构化的电子病历中提取信息,运用NLP技术将非结构化的文本转换为结构化数据能够有效减少人工阅读文本提取数据的时间,提高了非结构化数据的可用性,从而可以实现大规模文本的自动处理。电子病历由不同的部分组成,每个部分内容结构不同,数据提取的方法也不尽相同,其中出院小结主要包括了患者的诊断、症状体征、治疗情况等内容,在进行结构化提取时主要涉及命名实体识别(Named Entity Recognition, NER)、迁移学习、相似度匹配等技术;入院记录包含了患者既往史、个人史、查体等信息,针对诸如烟酒史信息进行提取,主要涉及文本分类技术。
  二、研究目的:
  1、针对电子病历中的入院记录和出院小结两部分文本,分别开发NLP技术流程,利用NER、迁移学习、文本相似度匹配、文本分类等技术,将非结构化数据转换成可供分析的结构化数据。
  2、基于提取的结构化数据,增加信息量,构建住院时长是否大于7天的预测模型,为临床决策及资源配置提供更丰富的信息。
  三、研究内容:
  1、基于出院小结的NLP算法研究及应用
  针对缺血性脑卒中,构建了Word2vec+BILSTM+CRF、Word2vec+IDCNN+CRF、BERT+BILSTM+CRF、BERT+IDCNN+CRF、ERNIE+BILSTM+CRF、ERNIE+IDCNN+CRF等6种模型进行疾病、药物、手术、影像学检查、症状等5种医疗命名实体的识别,评价指标采用精确率、召回率和F1值,采用最优模型提取实体,构建半结构化数据库。为了进一步从半结构化数据库中提取出结构化数据,构建BERT、ERNIE、ABCNN等3种文本相似度匹配模型,评价指标为准确率,采用最优模型构建协变量提取器。最后探索在缺血性脑卒中NER模型的基础上利用迁移学习技术,提高出血性脑卒中的实体识别效果。
  2、基于入院记录的NLP算法研究及应用
  构建BERT、BERT+TextCNN、BERT+TextRNN、ERNIE、ERNIE+TextCNN、ERNIE+TextRNN等六种模型进行吸烟史、饮酒史的文本分类,评价指标为精确率、召回率和F1值,采用其中的最优模型提取患者烟酒史的信息,构建结构化数据。
  3、脑卒中结构化数据库的构建
  结构化数据库构建方面,病案首页部分直接提取包括性别、年龄、入院年份、入院病情等级等数据;入院记录部分根据文本分类研究结果,采用总体效果最佳的模型提取烟酒史数据;出院小结部分,通过实体识别后的协变量提取器,采用最优模型,分别提取疾病、药物、手术、影像学检查、症状等数据。
  4、脑卒中患者住院时长预测模型构建
  基于生成后的结构化数据库,采用Logistic回归、K近邻、朴素贝叶斯,以及集成学习中的随机森林、自适应增强、梯度提升树等6个模型来预测住院时长是否大于7天。在训练集中进行5折交叉验证,最后使用测试集评估各模型的性能。最后将模型与仅利用病案首页的数据构建的预测模型进行对比。四、研究结果:
  1、基于出院小结的NLP算法研究结果
  在缺血性脑卒中的实体识别中,ERNIE+IDCNN+CRF总体识别效果最优,F1值为90.27%;在疾病的实体识别方面,Word2vec+BILSTM+CRF模型取得了最高的F1值,为88.77%;药物实体的识别方面,BERT+IDCNN+CRF的F1值最高,为91.92%;在影像学检查的实体识别方面,BERT+IDCNN+CRF的效果最好,F1为89.82%;在手术的实体识别方面,ERNIE+BILSTM+CRF的效果最好,F1为91.23%;在症状的实体识别方面,ERNIE+IDCNN+CRF的效果最好,F1为96.59%。在文本相似度匹配模型的比较中,ERNIE的总体准确率达到了99.11%,BERT为97.64%,ABCNN为93.89%,且ERNIE在疾病、影像学检查、手术、症状等实体的匹配中均为匹配效果最好的模型。
  在出血性脑卒中的实体识别中,基于迁移学习的模型的总体F1值为86.62%,高于直接应用缺血性脑卒中模型的75.01%及混合两种疾病数据后训练得到的85.46%。
  2、基于入院记录的NLP算法研究结果
  吸烟史的文本分类中,BERT模型效果最佳,F1值达到了99.25%,其中,“不吸烟”的分类中BERT模型效果最好,F1值为99.64%,“已戒烟”的分类效果BERT和ERNIE的F1值均达到了98.73%,“吸烟”的分类效果BERT仍然效果最佳,F1值为98.14%。饮酒史的总体分类效果BERT+TextRNN效果最佳,F1值达到了97.47%,其中“不饮酒”的分类中ERNIE+TextCNN最好,达到99.47%,“已戒酒”的分类中BERT+TextCNN的分类效果最好,F1值为96.10%,“饮酒”的分类中BERT+TextRNN模型的F1值最高,为95.06%。
  3、脑卒中结构化数据库的构建结果
  通过前述研究,构建了关于缺血性脑卒中患者的结构化数据库,数据库共纳入2009年至2019年入院的缺血性脑卒中患者共6053人。数据库的来源包括了病案首页、入院记录和出院小结三部分,不同的部分的数据格式不同,病案首页部分提取的数据包括性别、年龄、入院年份和入院病情等级。入院记录部分根据文本分类研究结果,采用总体效果最佳的模型,吸烟史的提取采用BERT模型,饮酒史的提取采用BERT+TextRNN模型,构建患者烟酒史的结构化数据。出院小结部分,通过实体识别后的协变量提取器,采用ERNIE模型,分别提取了疾病、药物、手术、影像学检查和症状等相关协变量。
  4、脑卒中患者住院时长预测模型的比较结果
  基于NLP技术构建的各住院时长预测模型的AUC值的比较中,集成学习的模型要优于其他单一的分类模型。基于病案首页ICD编码提取的协变量数为15个,而应用NLP技术提取的协变量数达到了43个。基于病案首页ICD编码的Logistic回归的预测模型中,共纳入8个预测因子,而基于NLP技术构建的Logistic回归的预测模型中,共纳入16个预测因子,通过NLP技术提取协变量构建的住院时长预测模型的AUC值均显著高于仅利用病案首页构建的预测模型,差异有统计学意义。
  五、研究结论:
  对于缺血性脑卒中出院小结的实体识别模型,ERNIE+IDCNN+CRF总体识别效果最优;在文本相似度匹配模型中,ERNIE的效果最好。
  在出血性脑卒中的实体识别中,基于迁移学习的模型的效果优于直接应用缺血性脑卒中模型及混合两种疾病数据后训练得到的模型;
  吸烟史的文本分类中,BERT模型总体效果最好,饮酒史的文本分类中,BERT+TextRNN总体效果最好。
  住院时长预测模型中,集成学习的模型要优于其他单一的分类模型;通过NLP技术提取协变量构建的住院时长预测模型预测效果显著高于仅利用病案首页构建的预测模型,反映了NLP提取协变量的有效性和实际应用价值。
其他文献
研究背景:直肠癌是最常见的恶性消化道肿瘤之一。由于缺乏早期筛查意识,大多数患者确诊时已处于局部进展期或发生远处转移。对于局部进展期直肠癌患者而言,术前新辅助放化疗+直肠全系膜切除术+术后辅助化疗是标准治疗手段。但个体对术前新辅助放化疗的病理反应具有很强的异质性,只有45%的直肠癌患者可以通过新辅助放化疗(Neoadjuvant chemoradiation,NCRT)获益。现阶段,术后病理结果评估
学位
目的抗性淀粉(Resistant starch,RS)是一种在小肠中不会被消化,而在结肠中可发酵的新型膳食纤维。近年来人们越来越关注RS,且对其生理功能的研究也愈发增多,不管是动物实验还是人体实验,都有研究表明RS对糖尿病(Diabetes mellitus,DM)防治有较好的作用,具体表现在RS可以改善空腹血糖(Fasting blood glucose,FBG)和胰岛素水平,减少胰岛素抵抗,增
学位
研究背景随着儿童超重肥胖及不健康生活方式的流行,儿童血压偏高已成为重要的公共卫生问题。中国营养与健康调查数据显示,根据“2018年中国高血压防治指南中的儿童血压偏高判定标准”,儿童青少年血压偏高检出率从1991年的7.0%增长至2015年的11.7%。心血管疾病(cardiovascular diseases,CVD)占我国居民死因构成之首,其患病率和死亡率现呈持续上升趋势。既往队列研究证据显示,
学位
背景:目前有研究人员用受试者工作特征(ROC)曲线分析和最大选择秩检验的方法来确定连续性风险因素对结局的阈值或者称截断值,这两种方法都是以获得最好的预测价值为目的的单变量分析方法。流行病学和卫生统计研究有两大重要目的:疾病预测和因果推断。基于因果关系研究界值也是有意义的,该界值不同于以往的风险阈值,它的确定应当控制混杂因素,建立在因果关系的基础上。目前在因果推断上比较高级的证据是随机对照试验和孟德
研究背景  非自杀性自伤(Non-suicidal self-injury, NSSI)是指在无自杀意图的情况下采取故意的,自我施加的对身体组织的破坏,其行为目的不被社会所认可。NSSI和自杀未遂均属于故意自我伤害,主要区别在于是否存在自杀意图。鉴于两者的区别,《精神障碍诊断和统计手册》第五版(2015年)首次将非自杀性自伤障碍从自杀行为障碍中独立出来,设立了单独的诊断标准,但目前相关研究仍以自杀
学位
背景和目的:  利用高维组学数据(基因组学、代谢组学、影像组学等)对疾病进行辅助诊断、亚型判别等对个性化诊疗具有重要意义。因为各种疾病类型及亚型的患病率不尽相同且相差悬殊,因此这些高维组学数据通常为多分类不平衡数据。多分类不平衡数据是指在数据集中一个或多个类别的构成比较小(少数类)而其它类别的构成比较大(多数类)。针对平衡数据构造的传统判别模型,通常以总体判别准确率作为优化目标。当这些模型被直接应
学位
[背景]  蜱是最早被确认可将病原体传播给人类的媒介节肢动物,是世界上仅次于蚊子的第二大传染病媒介,可以感染、传播和贮存的病原体包括病毒、细菌和原虫等,且通常会同时携带多种病原体。  病毒是蜱传病原体的重要组成部分。目前,已经从蜱中发现了至少160种病毒,其中25%左右与人类和/或动物的病毒感染性疾病有关,主要以各种硬蜱作为传播媒介。其中,正内罗病毒隶属于布尼亚病毒目、内罗病毒科,是有包膜且基因组
学位
研究背景  病因推断是流行病学研究的永恒主题,然而,由于受到混杂因素和逆向因果作用的干扰,在常规观察性研究中得到的暴露和结局的关联往往并不可靠。针对因果方向的确定及混杂因素的控制,孟德尔随机化方法(Mendelian Randomization,MR)使用遗传变异作为工具变量(instrumental variable,IV),在推定暴露到结局因果方向的前提下,准确估计从暴露到结局的因果关联效应,
学位
目的:  早在2019年11月初,新型冠状病毒(SARS-CoV-2)感染在欧洲、美洲、亚洲等全球多地出现。新冠肺炎(COVID-19)在全球范围内引起极大的公共卫生危机。至今,SARS-CoV-2在全球仍呈大流行趋势,且进化速度较快,常出现新的变异株,导致传播速率上升,无症状感染者所占比例呈升高趋势。然而,SARS-CoV-2的起源和进化关系仍不清楚。对于新冠病毒的防控、病原体进化溯源和临床诊疗
研究背景:现有的不良事件信号被动监测方法主要包括比例报告比值比法(Reporting odds ratio,ROR)、信息成分法(Information Component,IC)和报告比数比法(Proportional reporting ratio,PRR)等方法,但这些方法在计算中仅用到了药品名称和不良事件名称两个变量,无法对一些重要的常规背景噪声如年龄、性别、种族和体重等进行校正,更为重要