论文部分内容阅读
医疗知识实体作为领域知识库的基本单元,是医疗文献中承载信息的重要语言单位,如何从非结构化文本中抽取能够为计算机所理解的结构化知识,成为自动化构建医疗领域知识库的核心关键点。此前,研究关注点多在单一抽取算法的准确性,对领域知识类别的层次结构以及知识抽取模型训练效率的影响考虑较少。另外,单一算法无法高质量地利用文本表示和上下文中所包含的结构特征,成为导致整体抽取的泛化能力不足的主要原因。围绕上述问题,本文基于医疗知识的领域特征,从医疗活动视角分析领域知识体系,定义适合领域特性的知识表示方式、构建领域知识模型以及制定知识实体三元组表示方法;以神经网络语言模型为主体框架,实现医疗知识实体的自动抽取,采用多组对照实验进行算法有效性的验证,通过设计与实现知识抽取的原型系统,进一步验证算法的泛化性能和鲁棒性。本文主要工作如下:(1)针对词向量训练过程中层序Softmax算法无法进行增量训练以及海量数据训练低效的问题,提出了动态层序Softmax算法。通过对数据样本的增量加载,采用结点置换方法动态构建编码树,实现对样本的增量训练。为避免损失函数因样本量较少而呈现震荡式下降,利用梯度的一阶矩估计与二阶矩估计动态调整参数更新方向与学习率,通过梯度迭代缩小权值变化范围和收敛训练误差,提高词向量的训练效率。以Wikipedia中文语料作为数据进行实验,完成训练效率和质量分析。实验表明,相较于现有方法动态层序Softmax算法显著提高了训练效率,缩短训练周期。(2)针对基于字符或单词序列的LSTM-CRF模型未能显式利用单词和单词序列之间信息,提出并设计Lattice栅格结构用于表示句中所有可能的单词组合,将潜在的复合单词信息汇集到一个栅格单元中,避免分词误差所带来的噪声,自动控制句中的信息流,提升模型标记的针对性;针对训练时所带来的标记不一致问题,提出利用Attention机制获取文档级的全局信息,改进注意矩阵,定义多种对齐函数代替原有矩阵中单一的得分公式,以此度量文档中单词之间的相似度,依据最终的置信度得分预测单词序列最终的标记情况。实验表明,相较于现有方法Att-Lattice LSTM-CRF模型有效缓解标记不一致的问题,提高了模型对于复合知识识别的鲁棒性和不同领域的适应性。(3)针对BIOS标记方法无法将知识实体的内在联系映射到标签上,提出对医疗活动进行概括分析,总结可重复利用的实体类别及其内在联系,对医疗领域进行知识建模;基于统一医学语言系统(Unified Medical Language System,UMLS),改进现有医疗知识的标记方案,为后续的知识抽取、知识融合、知识展示等上游任务提供专业性指导。(4)在CMEKG医疗知识展示平台和Labelme文本标注工具的基础之上,进行原型系统的架构和功能模块设计和实现,通过给出每个模块的评估标准,验证原型系统的可用性与高效性。