面向医疗文献的LSTM序列标注模型的研究及应用

来源 :江苏大学 | 被引量 : 0次 | 上传用户:iPegatron
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
医疗知识实体作为领域知识库的基本单元,是医疗文献中承载信息的重要语言单位,如何从非结构化文本中抽取能够为计算机所理解的结构化知识,成为自动化构建医疗领域知识库的核心关键点。此前,研究关注点多在单一抽取算法的准确性,对领域知识类别的层次结构以及知识抽取模型训练效率的影响考虑较少。另外,单一算法无法高质量地利用文本表示和上下文中所包含的结构特征,成为导致整体抽取的泛化能力不足的主要原因。围绕上述问题,本文基于医疗知识的领域特征,从医疗活动视角分析领域知识体系,定义适合领域特性的知识表示方式、构建领域知识模型以及制定知识实体三元组表示方法;以神经网络语言模型为主体框架,实现医疗知识实体的自动抽取,采用多组对照实验进行算法有效性的验证,通过设计与实现知识抽取的原型系统,进一步验证算法的泛化性能和鲁棒性。本文主要工作如下:(1)针对词向量训练过程中层序Softmax算法无法进行增量训练以及海量数据训练低效的问题,提出了动态层序Softmax算法。通过对数据样本的增量加载,采用结点置换方法动态构建编码树,实现对样本的增量训练。为避免损失函数因样本量较少而呈现震荡式下降,利用梯度的一阶矩估计与二阶矩估计动态调整参数更新方向与学习率,通过梯度迭代缩小权值变化范围和收敛训练误差,提高词向量的训练效率。以Wikipedia中文语料作为数据进行实验,完成训练效率和质量分析。实验表明,相较于现有方法动态层序Softmax算法显著提高了训练效率,缩短训练周期。(2)针对基于字符或单词序列的LSTM-CRF模型未能显式利用单词和单词序列之间信息,提出并设计Lattice栅格结构用于表示句中所有可能的单词组合,将潜在的复合单词信息汇集到一个栅格单元中,避免分词误差所带来的噪声,自动控制句中的信息流,提升模型标记的针对性;针对训练时所带来的标记不一致问题,提出利用Attention机制获取文档级的全局信息,改进注意矩阵,定义多种对齐函数代替原有矩阵中单一的得分公式,以此度量文档中单词之间的相似度,依据最终的置信度得分预测单词序列最终的标记情况。实验表明,相较于现有方法Att-Lattice LSTM-CRF模型有效缓解标记不一致的问题,提高了模型对于复合知识识别的鲁棒性和不同领域的适应性。(3)针对BIOS标记方法无法将知识实体的内在联系映射到标签上,提出对医疗活动进行概括分析,总结可重复利用的实体类别及其内在联系,对医疗领域进行知识建模;基于统一医学语言系统(Unified Medical Language System,UMLS),改进现有医疗知识的标记方案,为后续的知识抽取、知识融合、知识展示等上游任务提供专业性指导。(4)在CMEKG医疗知识展示平台和Labelme文本标注工具的基础之上,进行原型系统的架构和功能模块设计和实现,通过给出每个模块的评估标准,验证原型系统的可用性与高效性。
其他文献
物联网技术在厨电行业落地是一种必然的发展趋势。目前物联网技术在油烟机设备的应用主要体现在智能控制和可视化终端,但这些技术的应用存在一定的不足:油烟吸力的智能控制只
摘 要:本文介绍了美国PASCO公司传感器热辐射实验系统在实验教学中的应用,特别是在大学生创新能力培养中的应用和效果。  关键词:热辐射 创新能力 PASCO热辐射实验系统  中图分类号:G4 文献标识码:A 文章编号:1672-3791(2012)10(c)-0003-01  目前高校培养的本科和专科人才,主要为应用型人才而非理论研究型人才。新世纪高校人才的需求是培养一批具有创新素质和创造能力,
本文介绍了3吨/小时热风冲天炉离心式鼓风机的设计参数、结构特点、试验装置和测试结果,并简述了使用维修和故障处理的有关问题
期刊
目的:探究肩峰下撞击综合征患者在肩关节活动时健侧与患侧肩胛骨周围肌肉表面肌电活动情况。方法:对42例单侧肩峰下撞击综合征患者分别在双肩关节前屈、外展时进行上斜方肌(UT)、中斜方肌(MT)、下斜方肌(LT)及前锯肌(SA)的表面肌电测试,对比患侧与健侧的肩胛骨周围肌肉(UT、MT、LT、SA)表面肌电活动的差异。结果:SIS患者肩关节前屈时患侧与健侧的UT的i EMG、RMS的差异有统计学意义(2
本文根据向量函数J(ω)分析了直流脉宽调速系统的强制振荡和分谐波振荡,确定了系统发生强制振荡和分谐波振荡的条件,指出了系统可能发生分谐波振荡的频率范围,并阐述了系统分
本文用正电子湮没技术研究了PV-E轧制产品B_2F钢,测得了正电子寿命与轧制压力及机械性能间的对应关系,为PV-E轧制工艺提供了依据。实验表明,轧制过程中B_2F钢中存在大量位错
广东省肇庆市国营林场公司下属12个国营林场,总经营面积65.73万亩,共有边界防火线683公里,截止1988年止,已营造木荷防火林带581公里,另营造工区界防火林带113公里,防火线基本
本文通过提取历年整个广州电网GIS变电站中所有间隔的所有气室中六氟化硫气体湿度测试数据,通过从影响六氟化硫气体湿度现场测试数据的各个角度与各种影响因素之间的关系,建
本文在文献[1]的基础上,结合萃取分离以消除所有干扰离子的影响,并消除过量试剂在汞电极表面的吸附而大大提高了测定的灵敏度。用此法测定了3种生物材料标样中的总硒量,结果
<正> 本文在参数关系的独立与联合相关中取适当的折衷,考虑了参数量级之间的相关性,用上下文方法对脑电图数据进行分类识别,取得比一般统计方法及模糊数学方法好的结果.脑电