面向医疗文献的LSTM序列标注模型的研究及应用

来源 :江苏大学 | 被引量 : 0次 | 上传用户：iPegatron

【摘要】

：

医疗知识实体作为领域知识库的基本单元,是医疗文献中承载信息的重要语言单位,如何从非结构化文本中抽取能够为计算机所理解的结构化知识,成为自动化构建医疗领域知识库的核

【作者】

：

胡惊涛

【出处】

：

江苏大学

【发表日期】

：

2020年01期

【关键词】

：

知识抽取层序Softmax 领域建模栅格结构注意力机制

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

医疗知识实体作为领域知识库的基本单元,是医疗文献中承载信息的重要语言单位,如何从非结构化文本中抽取能够为计算机所理解的结构化知识,成为自动化构建医疗领域知识库的核心关键点。此前,研究关注点多在单一抽取算法的准确性,对领域知识类别的层次结构以及知识抽取模型训练效率的影响考虑较少。另外,单一算法无法高质量地利用文本表示和上下文中所包含的结构特征,成为导致整体抽取的泛化能力不足的主要原因。围绕上述问题,本文基于医疗知识的领域特征,从医疗活动视角分析领域知识体系,定义适合领域特性的知识表示方式、构建领域知识模型以及制定知识实体三元组表示方法;以神经网络语言模型为主体框架,实现医疗知识实体的自动抽取,采用多组对照实验进行算法有效性的验证,通过设计与实现知识抽取的原型系统,进一步验证算法的泛化性能和鲁棒性。本文主要工作如下:(1)针对词向量训练过程中层序Softmax算法无法进行增量训练以及海量数据训练低效的问题,提出了动态层序Softmax算法。通过对数据样本的增量加载,采用结点置换方法动态构建编码树,实现对样本的增量训练。为避免损失函数因样本量较少而呈现震荡式下降,利用梯度的一阶矩估计与二阶矩估计动态调整参数更新方向与学习率,通过梯度迭代缩小权值变化范围和收敛训练误差,提高词向量的训练效率。以Wikipedia中文语料作为数据进行实验,完成训练效率和质量分析。实验表明,相较于现有方法动态层序Softmax算法显著提高了训练效率,缩短训练周期。(2)针对基于字符或单词序列的LSTM-CRF模型未能显式利用单词和单词序列之间信息,提出并设计Lattice栅格结构用于表示句中所有可能的单词组合,将潜在的复合单词信息汇集到一个栅格单元中,避免分词误差所带来的噪声,自动控制句中的信息流,提升模型标记的针对性;针对训练时所带来的标记不一致问题,提出利用Attention机制获取文档级的全局信息,改进注意矩阵,定义多种对齐函数代替原有矩阵中单一的得分公式,以此度量文档中单词之间的相似度,依据最终的置信度得分预测单词序列最终的标记情况。实验表明,相较于现有方法Att-Lattice LSTM-CRF模型有效缓解标记不一致的问题,提高了模型对于复合知识识别的鲁棒性和不同领域的适应性。(3)针对BIOS标记方法无法将知识实体的内在联系映射到标签上,提出对医疗活动进行概括分析,总结可重复利用的实体类别及其内在联系,对医疗领域进行知识建模;基于统一医学语言系统(Unified Medical Language System,UMLS),改进现有医疗知识的标记方案,为后续的知识抽取、知识融合、知识展示等上游任务提供专业性指导。(4)在CMEKG医疗知识展示平台和Labelme文本标注工具的基础之上,进行原型系统的架构和功能模块设计和实现,通过给出每个模块的评估标准,验证原型系统的可用性与高效性。

其他文献

智能商用油烟机系统设计及关键技术研究

物联网技术在厨电行业落地是一种必然的发展趋势。目前物联网技术在油烟机设备的应用主要体现在智能控制和可视化终端,但这些技术的应用存在一定的不足:油烟吸力的智能控制只

学位

商用油烟机智能系统无级变频控制网络流量控制

电脑控制热辐射实验的拓展

摘要：本文介绍了美国PASCO公司传感器热辐射实验系统在实验教学中的应用，特别是在大学生创新能力培养中的应用和效果。　　关键词：热辐射创新能力 PASCO热辐射实验系统　　中图分类号：G4 文献标识码：A 文章编号：1672-3791（2012）10（c）-0003-01　　目前高校培养的本科和专科人才，主要为应用型人才而非理论研究型人才。新世纪高校人才的需求是培养一批具有创新素质和创造能力，

期刊

热辐射创新能力PASCO热辐射实验系统

肩峰下撞击综合征肩胛骨周围肌肉表面肌电活动研究

目的:探究肩峰下撞击综合征患者在肩关节活动时健侧与患侧肩胛骨周围肌肉表面肌电活动情况。方法:对42例单侧肩峰下撞击综合征患者分别在双肩关节前屈、外展时进行上斜方肌(UT)、中斜方肌(MT)、下斜方肌(LT)及前锯肌(SA)的表面肌电测试,对比患侧与健侧的肩胛骨周围肌肉(UT、MT、LT、SA)表面肌电活动的差异。结果:SIS患者肩关节前屈时患侧与健侧的UT的i EMG、RMS的差异有统计学意义(2

学位

肩峰下撞击综合征表面肌电肩胛骨周围肌肉

面向医疗文献的LSTM序列标注模型的研究及应用

其他学术论文