论文部分内容阅读
在世界各地,医生作为一种稀缺资源承受着庞大就医人群带来的巨大压力。面对每一名患者接受的医疗资源十分受限的问题,医生希望借助医疗信息技术来高行医效率,同时高医疗质量;患者希望得到优质的医疗健康服务来充分掌握自身的健康状况。这些技术和服务的发展都十分依赖于医学知识的支持,因此,自动化的医学知识抽取方法的研究势在必行。通常情况下,医学文献、医学书籍、电子病历等是医学知识的主要知识源。电子病历区别于其他知识源,是一种直接面向患者的个性化医疗健康数据,其内包含大量的基于临床实践积累的经验知识。目前对这类知识的取方法的研究还比较初步。临床文本作为电子病历中医学知识最丰富的数据类型,同时也是一种直接体现医生行医经验的高可信度的知识源,研究面向临床文本的医学知识抽取技术是非常有必要的。临床文本作为一种特定领域的文本类型,具有其独特的子语言特性。临床文本中通用语言和子语言混合使用,且医学术语表述形式多样化,增加了医学实体边界的识别难度。此外,临床文本中常见的长句叙述造成了句内不同实体对所对应的上下文近似且部分实体对距离跨度大的问题,使医学实体关系分类变得复杂。本文基于临床文本的特点,研究了面向临床文本的医学经验知识抽取方法,主要研究内容包括以下五个方面:第一部分为面向临床文本的医学实体及其关系语料库构建。针对中文临床文本上语料匮乏导致相应研究无法开展的问题,本文基于中文临床文本的特点,制定了医学实体、医学实体修饰和医学实体关系的分类体系,并基于该体系构建了语料库标注规范。本文通过迭代式的语料标注方法来进行标注人员培训及标注规范更新,并采取多种标注质量保证措施来进行语料库构建。该语料库为面向临床文本的医学经验知识抽取研究奠定了重要的数据基础。第二部分为基于字级别条件随机场(Conditional Random Fields,CRFs)的医学实体识别。开放域分词器对临床文本进行分词处理时,其性能受到了临床文本独特的子语言特性的极大限制,给后续医学实体边界识别造成了许多错误累积。本文针对该问题构建了面向临床文本的分词器,将该分词器用于医学实体识别模型的词特征取来减少医学实体边界错误,还构建了字级别的条件随机场模型用于识别医学实体,避免了分词给实体边界识别造成的错误累积问题。第三部分为基于字级别长短时记忆-条件随机场(Long Short-Term Memory with a CRF layer,LSTM-CRF)的医学实体识别。针对中文临床文本的相关NLP资源稀缺且医学实体标注语料库规模较小的问题,本文探索了深度学习方法在医学实体识别模型上的性能。本文根据中文临床文本特点,设计了多种长短时记忆-条件随机场模型用于识别医学实体,并探究了不同字表示和词表示的初始化对于模型的性能影响。第四部分为基于多池化卷积神经网络(Convolutional Neural Networks,CNNs)的医学实体关系分类。临床文本中充斥着大量的医学实体,直接导致同一个句子中可能包含多个医学实体,进而产生同一句子内多个上下文近似的关系样本。针对传统卷积神经网络中最大化池化操作无法保留特征相对于实体对的位置信息的问题,本文出了多池化卷积神经网络来进行医学实体关系分类。本文还针对跨关系大类的关系类型参数相互影响的问题,出了一种引入关系大类约束的模型训练方式,保证了关系大类间参数更新的独立性。第五部分为基于卷积门控循环单元(Gated Recurrent Units,GRUs)的医学实体关系分类。临床文本中存在着许多长句,这直接导致这些句子内实体关系的实体对距离较大。传统的卷积神经网络无法捕捉长距离特征间的依赖信息,而循环神经网络(Recurrent Neural Networks,RNNs)又不具备卷积神经网络对于局部特征抽取的精准度。本文针对该问题出了基于卷积门控循环单元的医学实体关系分类模型,整合了卷积神经网络和循环神经网络对于医学实体关系分类的优点,并在该模型上对比了基于注意力机制的得分加权计算与传统的最大化池化操作对于模型性能的影响。总的来说,本文针对临床文本的文本特点,深入地研究了面向该文本类型的医学实体识别和医学实体关系分类任务,并显著地升了这些任务上的模型性能。本文为医疗健康服务的发展供了医学经验知识抽取能力,我们期待这些研究成果可以进一步拓展到其他的数据类型上,从而进一步推进医学人工智能的发展。