论文部分内容阅读
TNM临床分期是癌症诊断及治疗的关键步骤,但由于临床分期需要依赖大量不同来源的信息,而供医生决策的时间有限,很难准确地提取分期相关信息,因而目前临床分期存在较大偏差。利用计算机技术,在癌症分期时为医生决策提供必要的分期相关信息,可提高癌症临床分期的准确性。但TNM分期相关信息大部分以自然语言形式存在于各种影像报告中,无法被计算机直接利用,因此从影像报告中自动提取TNM分期相关信息是必不可少的环节。此外,提取的TNM分期相关信息还可以用于治疗方案推荐、预后评估等其他环节。目前的肿瘤信息提取研究工作存在如下不足:1)非专门面向TNM分期,对分期信息的覆盖不全面;2)提取结果仍是文本形式,无法直接用于分期辅助决策;3)受限于所使用的提取方法,无法从报告文字中得到可解释的证据,不利于医生对系统的信任。本论文针对上述痛点,以肺癌为研究对象,提出一种面向TNM分期的中文影像报告肿瘤信息提取方案,并以CT报告为例开展研究。该方案利用命名实体识别和关系抽取组成的信息提取技术,从报告中自动获得与分期相关的文字表达,再利用规则对获取文字进行分析推断,得到布尔型或数值型的分期信息,可直接服务于分期决策,并且提取信息具有报告文字作为证据支撑,具有可解释性。本论文的主要内容包括:1)本论文以肺癌TNM分期指南为依据,将指南中以文字表述的、多项条件组合在一起的复合型分期条件拆解为多个独立的、结果为布尔型或数值型的条件,这些条件即为可直接用于决策支持的分期信息。2)本论文通过对50份实际CT报告的解析,设计出可用于推断上述分期条件的15种实体类型和4种关系类型,并对342份CT报告进行标注,共得到6152个标注实体和4285个标注关系。3)本论文结合Glove字向量和结巴分词构建了 BiLSTM+CRF模型和IDCNN+CRF模型用于命名实体识别,并以3种不同长度的文本训练两个模型,结果显示在以分号断句训练的BiLSTM+CRF模型结果更好,精准匹配下的精确率为88.94%,召回率为90.75%,F1值为89.83%,宽松匹配下的精确率为93.91%,召回率为94.97%,F1值为94.41%。4)本论文提出了 一种加入先验知识的BiLSTM+Attention模型,在4285个标注关系上对该模型与普通BiLSTM+Attention模型以及多核CNN模型进行训练与测试。五次随机对照实验结果显示,加入先验知识的方法能够提升模型结果,精确率为96.73%,召回率为96.38%,F1值为96.53%,分别提高了 1.00%,0.55%和 0.79%。5)本论文针对命名实体识别和关系抽取结果难以利用的问题,提出一种基于规则的分期条件推断方法,设计并实现了五项核心推断步骤,解决了CT报告涵盖的全部分期条件的推断。在前两步的金标准数据集上取得了精确率99.83%,召回率97.75%,F1值98.78%的结果。本论文联合了命名实体识别、关系抽取和分期推断三步,对所提出方案进行了整体评估,取得了精确率98.33%,召回率96.20%,F1值97.26%的结果,证明了信息抽取方案的有效性。本论文研究的中文影像报告肿瘤信息抽取方案不但对于CT报告的肺癌TNM临床分期信息提取实现了较高的准确率,而且可应用在其他影像报告的TNM分期信息提取上。