论文部分内容阅读
信息技术的迅猛发展使得临床医疗服务已进入数字化和信息化时代,一系列以电子病历为核心的医疗信息系统的建立与普及为医疗大数据奠定了坚实基础。在医疗大数据时代,如何分析利用医疗大数据,提高临床医疗服务智能化程度,成为当下临床医疗信息化亟需解决的问题之一。其中,临床医疗实体及其属性抽取是电子病历医疗信息挖掘的关键所在,是挖掘蕴含其中医疗知识的关键步骤。临床医疗实体及其属性抽取即识别医疗文本中的临床医疗实体和属性,并确定实体和属性之间的修饰关系,可以有效的将电子病历文本中隐藏着的丰富的医疗信息与知识结构化,为患者、医务人员和研究者们进行数据分析和挖掘提供基础,其广泛用于临床决策支持系统、个性化健康医疗信息服务和公共卫生服务等。传统上,临床医疗实体及其属性抽取任务采用基于管道方式的方法。这种方法使每个子任务变成一个独立的任务,简单易行,但忽略了这两个子任务之间的内在联系和依赖关系,且不可避免的造成了错误传播。而联合学习方法是使用单个统一的框架完成两个子任务,可以有效整合临床医疗实体与属性间的内在信息,通过正确的关系抽取提高“实体/属性”识别率。同时鉴于正确的修饰关系不可能从错误的临床医疗实体和属性中获得,提高实体和属性识别率也将提高实体和属性之间修饰关系的抽取性能。本文主要采用以下两种方式进行临床医疗实体及其属性联合抽取:1)串行联合方法:把临床医疗实体和属性识别当作序列标注问题,它们之间的修饰关系抽取当作分类问题;2)并行联合方法:把两个子任务一起当作序列标注问题。前者是采用一个端到端的神经网络框架通过共享两个子任务的参数对临床医疗实体及其属性联合抽取。本文在现有研究基础上提出两个新的串行联合深度学习方法,用于临床医疗实体及其属性抽取,通过引入临床医疗约束关系和偏置损失函数进一步改进这些方法。后者是通过设计新的问题表示将两个子任务转化成一个任务进行处理。本文提出采用BIOHD1234和Multi-Label两种方法进行临床医疗实体及其属性抽取的并行联合学习。为了评估提出的新方法,本文构造了一个中文电子病历数据集,并分别在中文数据集和英文SemEval-2015 Task 14公开语料上进行实验。实验结果表明本文所提出的新的联合学习方法比传统的基于管道方式的方法及Miwa等人[1]提出的联合学习方法在该任务上性能更佳,同时也验证了联合学习方法优于管道方法,串行联合学习方法优于并行联合学习方法。