论文部分内容阅读
一、研究背景:
脑卒中(Stroke)在我国已经成为头号死因,增加了国家医疗卫生负担。在过去的十年,随着医疗水平的不断发展,脑卒中的预后有所改善,其患病率和发病率仍在持续上升,给社会造成巨大经济负担。现有研究表明脑卒中患者中,由于提供急性脑卒中护理、查明脑卒中的原因及预防脑卒中并发症一般在入院的第一周内完成,因此以往的研究一般将脑卒中患者大于6到8天的住院时长定义为长时间住院,而长时间住院是住院费用增加的独立影响因素,虽然患者住院时间越长,能够接受治疗的时间越久,但是患者预后不一定好。研究长时间住院(大于7天)的影响因素及预测是否长时间住院有助于合理分配医疗资源,提高床位使用的灵活性,从而降低管理成本和医疗护理成本,并可以依据这些因素为患者制定个性化诊疗途径和规划出院计划,以减少患者住院时长,提高患者及其家属的满意度。
电子病历是真实世界大数据中质量较高的部分,包含了结构化数据、半结构化数据和非结构化数据,其中非结构化部分信息所占比重大,占总量的80%以上,然而其利用率低,无法直接用于传统的统计分析。目前自然语言处理技术(Natural Language Processing, NLP)已经被广泛应用于从非结构化的电子病历中提取信息,运用NLP技术将非结构化的文本转换为结构化数据能够有效减少人工阅读文本提取数据的时间,提高了非结构化数据的可用性,从而可以实现大规模文本的自动处理。电子病历由不同的部分组成,每个部分内容结构不同,数据提取的方法也不尽相同,其中出院小结主要包括了患者的诊断、症状体征、治疗情况等内容,在进行结构化提取时主要涉及命名实体识别(Named Entity Recognition, NER)、迁移学习、相似度匹配等技术;入院记录包含了患者既往史、个人史、查体等信息,针对诸如烟酒史信息进行提取,主要涉及文本分类技术。
二、研究目的:
1、针对电子病历中的入院记录和出院小结两部分文本,分别开发NLP技术流程,利用NER、迁移学习、文本相似度匹配、文本分类等技术,将非结构化数据转换成可供分析的结构化数据。
2、基于提取的结构化数据,增加信息量,构建住院时长是否大于7天的预测模型,为临床决策及资源配置提供更丰富的信息。
三、研究内容:
1、基于出院小结的NLP算法研究及应用
针对缺血性脑卒中,构建了Word2vec+BILSTM+CRF、Word2vec+IDCNN+CRF、BERT+BILSTM+CRF、BERT+IDCNN+CRF、ERNIE+BILSTM+CRF、ERNIE+IDCNN+CRF等6种模型进行疾病、药物、手术、影像学检查、症状等5种医疗命名实体的识别,评价指标采用精确率、召回率和F1值,采用最优模型提取实体,构建半结构化数据库。为了进一步从半结构化数据库中提取出结构化数据,构建BERT、ERNIE、ABCNN等3种文本相似度匹配模型,评价指标为准确率,采用最优模型构建协变量提取器。最后探索在缺血性脑卒中NER模型的基础上利用迁移学习技术,提高出血性脑卒中的实体识别效果。
2、基于入院记录的NLP算法研究及应用
构建BERT、BERT+TextCNN、BERT+TextRNN、ERNIE、ERNIE+TextCNN、ERNIE+TextRNN等六种模型进行吸烟史、饮酒史的文本分类,评价指标为精确率、召回率和F1值,采用其中的最优模型提取患者烟酒史的信息,构建结构化数据。
3、脑卒中结构化数据库的构建
结构化数据库构建方面,病案首页部分直接提取包括性别、年龄、入院年份、入院病情等级等数据;入院记录部分根据文本分类研究结果,采用总体效果最佳的模型提取烟酒史数据;出院小结部分,通过实体识别后的协变量提取器,采用最优模型,分别提取疾病、药物、手术、影像学检查、症状等数据。
4、脑卒中患者住院时长预测模型构建
基于生成后的结构化数据库,采用Logistic回归、K近邻、朴素贝叶斯,以及集成学习中的随机森林、自适应增强、梯度提升树等6个模型来预测住院时长是否大于7天。在训练集中进行5折交叉验证,最后使用测试集评估各模型的性能。最后将模型与仅利用病案首页的数据构建的预测模型进行对比。四、研究结果:
1、基于出院小结的NLP算法研究结果
在缺血性脑卒中的实体识别中,ERNIE+IDCNN+CRF总体识别效果最优,F1值为90.27%;在疾病的实体识别方面,Word2vec+BILSTM+CRF模型取得了最高的F1值,为88.77%;药物实体的识别方面,BERT+IDCNN+CRF的F1值最高,为91.92%;在影像学检查的实体识别方面,BERT+IDCNN+CRF的效果最好,F1为89.82%;在手术的实体识别方面,ERNIE+BILSTM+CRF的效果最好,F1为91.23%;在症状的实体识别方面,ERNIE+IDCNN+CRF的效果最好,F1为96.59%。在文本相似度匹配模型的比较中,ERNIE的总体准确率达到了99.11%,BERT为97.64%,ABCNN为93.89%,且ERNIE在疾病、影像学检查、手术、症状等实体的匹配中均为匹配效果最好的模型。
在出血性脑卒中的实体识别中,基于迁移学习的模型的总体F1值为86.62%,高于直接应用缺血性脑卒中模型的75.01%及混合两种疾病数据后训练得到的85.46%。
2、基于入院记录的NLP算法研究结果
吸烟史的文本分类中,BERT模型效果最佳,F1值达到了99.25%,其中,“不吸烟”的分类中BERT模型效果最好,F1值为99.64%,“已戒烟”的分类效果BERT和ERNIE的F1值均达到了98.73%,“吸烟”的分类效果BERT仍然效果最佳,F1值为98.14%。饮酒史的总体分类效果BERT+TextRNN效果最佳,F1值达到了97.47%,其中“不饮酒”的分类中ERNIE+TextCNN最好,达到99.47%,“已戒酒”的分类中BERT+TextCNN的分类效果最好,F1值为96.10%,“饮酒”的分类中BERT+TextRNN模型的F1值最高,为95.06%。
3、脑卒中结构化数据库的构建结果
通过前述研究,构建了关于缺血性脑卒中患者的结构化数据库,数据库共纳入2009年至2019年入院的缺血性脑卒中患者共6053人。数据库的来源包括了病案首页、入院记录和出院小结三部分,不同的部分的数据格式不同,病案首页部分提取的数据包括性别、年龄、入院年份和入院病情等级。入院记录部分根据文本分类研究结果,采用总体效果最佳的模型,吸烟史的提取采用BERT模型,饮酒史的提取采用BERT+TextRNN模型,构建患者烟酒史的结构化数据。出院小结部分,通过实体识别后的协变量提取器,采用ERNIE模型,分别提取了疾病、药物、手术、影像学检查和症状等相关协变量。
4、脑卒中患者住院时长预测模型的比较结果
基于NLP技术构建的各住院时长预测模型的AUC值的比较中,集成学习的模型要优于其他单一的分类模型。基于病案首页ICD编码提取的协变量数为15个,而应用NLP技术提取的协变量数达到了43个。基于病案首页ICD编码的Logistic回归的预测模型中,共纳入8个预测因子,而基于NLP技术构建的Logistic回归的预测模型中,共纳入16个预测因子,通过NLP技术提取协变量构建的住院时长预测模型的AUC值均显著高于仅利用病案首页构建的预测模型,差异有统计学意义。
五、研究结论:
对于缺血性脑卒中出院小结的实体识别模型,ERNIE+IDCNN+CRF总体识别效果最优;在文本相似度匹配模型中,ERNIE的效果最好。
在出血性脑卒中的实体识别中,基于迁移学习的模型的效果优于直接应用缺血性脑卒中模型及混合两种疾病数据后训练得到的模型;
吸烟史的文本分类中,BERT模型总体效果最好,饮酒史的文本分类中,BERT+TextRNN总体效果最好。
住院时长预测模型中,集成学习的模型要优于其他单一的分类模型;通过NLP技术提取协变量构建的住院时长预测模型预测效果显著高于仅利用病案首页构建的预测模型,反映了NLP提取协变量的有效性和实际应用价值。
脑卒中(Stroke)在我国已经成为头号死因,增加了国家医疗卫生负担。在过去的十年,随着医疗水平的不断发展,脑卒中的预后有所改善,其患病率和发病率仍在持续上升,给社会造成巨大经济负担。现有研究表明脑卒中患者中,由于提供急性脑卒中护理、查明脑卒中的原因及预防脑卒中并发症一般在入院的第一周内完成,因此以往的研究一般将脑卒中患者大于6到8天的住院时长定义为长时间住院,而长时间住院是住院费用增加的独立影响因素,虽然患者住院时间越长,能够接受治疗的时间越久,但是患者预后不一定好。研究长时间住院(大于7天)的影响因素及预测是否长时间住院有助于合理分配医疗资源,提高床位使用的灵活性,从而降低管理成本和医疗护理成本,并可以依据这些因素为患者制定个性化诊疗途径和规划出院计划,以减少患者住院时长,提高患者及其家属的满意度。
电子病历是真实世界大数据中质量较高的部分,包含了结构化数据、半结构化数据和非结构化数据,其中非结构化部分信息所占比重大,占总量的80%以上,然而其利用率低,无法直接用于传统的统计分析。目前自然语言处理技术(Natural Language Processing, NLP)已经被广泛应用于从非结构化的电子病历中提取信息,运用NLP技术将非结构化的文本转换为结构化数据能够有效减少人工阅读文本提取数据的时间,提高了非结构化数据的可用性,从而可以实现大规模文本的自动处理。电子病历由不同的部分组成,每个部分内容结构不同,数据提取的方法也不尽相同,其中出院小结主要包括了患者的诊断、症状体征、治疗情况等内容,在进行结构化提取时主要涉及命名实体识别(Named Entity Recognition, NER)、迁移学习、相似度匹配等技术;入院记录包含了患者既往史、个人史、查体等信息,针对诸如烟酒史信息进行提取,主要涉及文本分类技术。
二、研究目的:
1、针对电子病历中的入院记录和出院小结两部分文本,分别开发NLP技术流程,利用NER、迁移学习、文本相似度匹配、文本分类等技术,将非结构化数据转换成可供分析的结构化数据。
2、基于提取的结构化数据,增加信息量,构建住院时长是否大于7天的预测模型,为临床决策及资源配置提供更丰富的信息。
三、研究内容:
1、基于出院小结的NLP算法研究及应用
针对缺血性脑卒中,构建了Word2vec+BILSTM+CRF、Word2vec+IDCNN+CRF、BERT+BILSTM+CRF、BERT+IDCNN+CRF、ERNIE+BILSTM+CRF、ERNIE+IDCNN+CRF等6种模型进行疾病、药物、手术、影像学检查、症状等5种医疗命名实体的识别,评价指标采用精确率、召回率和F1值,采用最优模型提取实体,构建半结构化数据库。为了进一步从半结构化数据库中提取出结构化数据,构建BERT、ERNIE、ABCNN等3种文本相似度匹配模型,评价指标为准确率,采用最优模型构建协变量提取器。最后探索在缺血性脑卒中NER模型的基础上利用迁移学习技术,提高出血性脑卒中的实体识别效果。
2、基于入院记录的NLP算法研究及应用
构建BERT、BERT+TextCNN、BERT+TextRNN、ERNIE、ERNIE+TextCNN、ERNIE+TextRNN等六种模型进行吸烟史、饮酒史的文本分类,评价指标为精确率、召回率和F1值,采用其中的最优模型提取患者烟酒史的信息,构建结构化数据。
3、脑卒中结构化数据库的构建
结构化数据库构建方面,病案首页部分直接提取包括性别、年龄、入院年份、入院病情等级等数据;入院记录部分根据文本分类研究结果,采用总体效果最佳的模型提取烟酒史数据;出院小结部分,通过实体识别后的协变量提取器,采用最优模型,分别提取疾病、药物、手术、影像学检查、症状等数据。
4、脑卒中患者住院时长预测模型构建
基于生成后的结构化数据库,采用Logistic回归、K近邻、朴素贝叶斯,以及集成学习中的随机森林、自适应增强、梯度提升树等6个模型来预测住院时长是否大于7天。在训练集中进行5折交叉验证,最后使用测试集评估各模型的性能。最后将模型与仅利用病案首页的数据构建的预测模型进行对比。四、研究结果:
1、基于出院小结的NLP算法研究结果
在缺血性脑卒中的实体识别中,ERNIE+IDCNN+CRF总体识别效果最优,F1值为90.27%;在疾病的实体识别方面,Word2vec+BILSTM+CRF模型取得了最高的F1值,为88.77%;药物实体的识别方面,BERT+IDCNN+CRF的F1值最高,为91.92%;在影像学检查的实体识别方面,BERT+IDCNN+CRF的效果最好,F1为89.82%;在手术的实体识别方面,ERNIE+BILSTM+CRF的效果最好,F1为91.23%;在症状的实体识别方面,ERNIE+IDCNN+CRF的效果最好,F1为96.59%。在文本相似度匹配模型的比较中,ERNIE的总体准确率达到了99.11%,BERT为97.64%,ABCNN为93.89%,且ERNIE在疾病、影像学检查、手术、症状等实体的匹配中均为匹配效果最好的模型。
在出血性脑卒中的实体识别中,基于迁移学习的模型的总体F1值为86.62%,高于直接应用缺血性脑卒中模型的75.01%及混合两种疾病数据后训练得到的85.46%。
2、基于入院记录的NLP算法研究结果
吸烟史的文本分类中,BERT模型效果最佳,F1值达到了99.25%,其中,“不吸烟”的分类中BERT模型效果最好,F1值为99.64%,“已戒烟”的分类效果BERT和ERNIE的F1值均达到了98.73%,“吸烟”的分类效果BERT仍然效果最佳,F1值为98.14%。饮酒史的总体分类效果BERT+TextRNN效果最佳,F1值达到了97.47%,其中“不饮酒”的分类中ERNIE+TextCNN最好,达到99.47%,“已戒酒”的分类中BERT+TextCNN的分类效果最好,F1值为96.10%,“饮酒”的分类中BERT+TextRNN模型的F1值最高,为95.06%。
3、脑卒中结构化数据库的构建结果
通过前述研究,构建了关于缺血性脑卒中患者的结构化数据库,数据库共纳入2009年至2019年入院的缺血性脑卒中患者共6053人。数据库的来源包括了病案首页、入院记录和出院小结三部分,不同的部分的数据格式不同,病案首页部分提取的数据包括性别、年龄、入院年份和入院病情等级。入院记录部分根据文本分类研究结果,采用总体效果最佳的模型,吸烟史的提取采用BERT模型,饮酒史的提取采用BERT+TextRNN模型,构建患者烟酒史的结构化数据。出院小结部分,通过实体识别后的协变量提取器,采用ERNIE模型,分别提取了疾病、药物、手术、影像学检查和症状等相关协变量。
4、脑卒中患者住院时长预测模型的比较结果
基于NLP技术构建的各住院时长预测模型的AUC值的比较中,集成学习的模型要优于其他单一的分类模型。基于病案首页ICD编码提取的协变量数为15个,而应用NLP技术提取的协变量数达到了43个。基于病案首页ICD编码的Logistic回归的预测模型中,共纳入8个预测因子,而基于NLP技术构建的Logistic回归的预测模型中,共纳入16个预测因子,通过NLP技术提取协变量构建的住院时长预测模型的AUC值均显著高于仅利用病案首页构建的预测模型,差异有统计学意义。
五、研究结论:
对于缺血性脑卒中出院小结的实体识别模型,ERNIE+IDCNN+CRF总体识别效果最优;在文本相似度匹配模型中,ERNIE的效果最好。
在出血性脑卒中的实体识别中,基于迁移学习的模型的效果优于直接应用缺血性脑卒中模型及混合两种疾病数据后训练得到的模型;
吸烟史的文本分类中,BERT模型总体效果最好,饮酒史的文本分类中,BERT+TextRNN总体效果最好。
住院时长预测模型中,集成学习的模型要优于其他单一的分类模型;通过NLP技术提取协变量构建的住院时长预测模型预测效果显著高于仅利用病案首页构建的预测模型,反映了NLP提取协变量的有效性和实际应用价值。