基于注意力机制的中文医学文本关系抽取算法研究

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:gaoxianfeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着医学信息化程度不断增加,产生了大量的医学文本数据,通过信息挖掘与分析,从非结构化的数据中抽取三元组成为重要的研究方向。传统的中文医学文本的实体关系抽取方法存在词组分割歧义、信息缺失和关系重叠等问题,本文通过词组信息嵌入和指针标注框架,融合自注意力机制,提出一个融合词汇增强的基于注意力机制的指针标注模型,以此来解决中文医学文本关系抽取中存在的问题,提升关系抽取的性能。本文的主要研究内容如下:在嵌入阶段使用词向量的固态表征,无法解决一词多义的问题,也无法理解复杂语境。所以本文提出的算法模型在字符级嵌入的基础之上,再利用预训练语言模型,来对医学文本进行进一步的编码,获取医学文本上下文相关的语义信息,更好地表征医学关系。而BERT使用双向的Transformer Encoder,可以有效的捕捉词语和句子级别的表征,因此本文在编码层采用了BERT。对于中文医学文本,传统机械式的词组分割容易产生歧义,导致实体抽取不准确,为了更好地引入词组信息,辨识医学实体边界,本文提出的模型算法采用了Flat-Lattice结构,可以在中文文本字符级嵌入的基础上,融入词组信息,解决词组信息缺失的问题。Flat-Lattice结构可以获取到中文医学文本中的词组,对每个字符和词组都添加相应的位置索引,然后通过相对位置编码,将位置信息进行交互计算,嵌入词组信息。除此之外,在编码层还可与BERT进行协作,利用预训练模型的长距离表征能力,进一步融合中文医学文本中的信息,从而解决中文文本关系抽取词组信息缺失的问题。传统的三元组抽取方式先抽取出实体对,然后根据实体对分配对应的关系,但这种方式难以有效应对EPO和SEO的关系重叠问题,本文通过使用基于注意力机制的指针标注框架,将关系作为subject到object的映射函数,而不是将关系视为实体对上的离散标签。先通过头尾标注,判断对应的字符是否是实体起始或者结束字符,以此得出所有可能的subject。然后对于可能的subject,提取其特征并于编码层的特征进行叠加,再利用自注意力机制长距离信息的捕捉能力,以标注subject一样的方式,标注出特定关系下对应的object。这样方式下,可以判断出以一个实体和关系为基础,其对应的所有可能的匹配实体,从而解决关系重叠的问题。本文算法在中文医学数据集CMe IE(Chinese Medical Information Extraction)进行关系抽取实验验证。通过与基准模型进行对比,得出的实验结果表明,本文提出的算法模型能够有效地解决中文医学文本关系中存在的词组信息缺失和关系重叠问题,准确率、召回率和F1值分别达到了63.40%、63.45%和63.42%,均高于基准模型,并在消融实验中也分析了各个模块的增益,进一步通过关系重叠实验验证了模型对于解决关系重叠问题的能力,验证了本文提出模型的有效性。
其他文献
在当今信息爆炸的时代,图像作为信息的重要载体并且图像的分辨率越高,所蕴含的信息越多,同时视觉感受会更加细腻。这也让人们提高了对高分辨率图像的需求,同时也吸引了大量科研人员研究如何生成高分辨的图像。目前常用的两种方法分别是:设计更加精密的成像设备来采集图像;通过设计更优的超分辨率算法来生成高分辨率图像。考虑到生产精密的成像设备成本过高,并且成像环境复杂,不容易控制高分辨率图像的生成。因此更多的科研人
学位
室内环境下的构图和定位应用涉及到了人们生活的多个方面,为社会带来了一定的经济效益。构图的目的是构建环境的地图,地图则是定位与导航等其他应用的基础。未知环境下的构图通常是基于同步定位与构图技术(Simultaneous Localization and Mapping,SLAM)实现的,相比人工测绘的方式更加高效。当目标区域的地图信息已知时,则可以根据实时输入的传感器数据和已有的地图信息实现在线定位
学位
滚动轴承是旋转机械设备中应用最为广泛的重要零部件之一,它的健康状态对于设备系统能否安全可靠地运行起着决定性作用,深入研究滚动轴承的故障诊断与剩余使用寿命预测技术,可以在有效保障人员和机械设备安全的同时降低经营成本,具有重大的学术意义和工程应用价值。因此,本文基于数据驱动的方法,对轴承的故障诊断和寿命预测进行了研究。(1)选取西储大学轴承故障数据集作为研究对象,针对轴承振动信号存在不同故障种类的特点
学位
表情识别技术可以分析人的情感,提供用户的情感反馈,检测疲劳驾驶和疲劳作业等,在很多领域有着广阔应用前景。目前,针对正脸无遮挡的人脸图像表情识别研究,深度学习方法已经取得非常好的效果。然而,在自然场景下,头发、手、胳膊、食物等都可能引起遮挡,这些物体可能遮挡脸部的任何部分,表情识别的准确性和鲁棒性也会因此急剧下降。由于被遮挡区域的位置、大小和形状各不相同,所以遮挡下的表情识别仍然是一个巨大的挑战。因
学位
随着社会的发展和时代的进步,互联网技术给人们的生活提供了极大的便利。尤其是近些年来,大量的社交媒体平台兴起。不仅为人们的交流提供了便利,也改变了人类获取信息和传播信息的方式。在社交媒体平台上,人们可以自由的创造、发布和提取热点信息。许多人也利用它的时效性散布和传播谣言,博取网民们的眼球,吸引人们的关注,从而谋取利益。谣言被定义为没有事实根据的消息,它往往会误导读者。它不仅会伤害到个人、社会甚至整个
学位
在现代电力系统向高比例电力电子化发展过程中,宽频带下的谐波谐振问题日益引起关注。这些谐波谐振问题会带来严重危害,轻则影响供电系统的电能质量,重则引发谐波谐振事故,损毁供电系统设备,严重威胁供电系统的安全稳定运行。无论是单相供电系统还是三相供电系统,系统固有的阻抗频率特性既是刻画谐波谐振问题的关键指标之一,也是制定谐波谐振抑制方法的重要依据,但是阻抗频率特性仅仅依靠建模和仿真计算的方法难以准确获得。
学位
伴随全球化产业深层次变化的发生,机械臂技术为多领域多产业提供了有力支撑。当前,机械臂在实际作业场景下仍面临环境复杂多变、目标模型未知,自主感知交互能力不足带来的严峻挑战。因此,本文以七自由度机械臂作为研究对象,围绕未知多变的机械臂应用场景,以机械臂抓取问题作为研究主线,融合机器视觉与深度学习方法深入探索机械臂抓取位姿检测问题,同时针对机械臂路径规划问题展开分析研究,旨在为复杂未知环境中的机械臂自主
学位
现在市场中的企业都不是孤立运营的,而是处于整个供应链上,所以对于核心企业来说,供应链上的供应商的配合程度在日常业务运营方面很重要。在供应商管理整个流程中,供应商的选择是很重要的一环,直接决定了合作供应商的质量以及后续的合作关系,也是现在市场竞争中的重点,但是,现在公司在供应商选择的过程中还存在很多的问题。基于此,本文以A公司为研究对象,对供应商的选择进行优化研究,主要的研究内容如下:(1)现状分析
学位
针对阿尔兹海默症的计算机辅助诊断近年来得到了极大的发展,但是已有的大多数该类研究都是使用监督学习的方法来展开的。但医学图像的标注需要标注者具有对应的医学知识,从而导致带标签的医学图像数据比较稀缺,进而影响了该领域研究的进展。虽然该方面的带标签数据较少,但是在实际中有大量的无标签数据由于没有标签而没有被有效利用。因此,如何使用这些无标签数据去提高阿尔兹海默症病灶分割和分类的性能是本文拟解决的问题。同
学位
电子医疗数据是患者生理/心理的病情记录,亦或是人体日常健康监测数据,在疾病治疗与病理研究中充当着相当重要的角色;同时,作为隐私数据,如何实现其安全共享成为研究的热点。目前,医疗数据主要以中心化存储的形式,通过公有云或私有云集中存储在医疗机构服务器中。在此主流方式下,医疗数据共享系统一旦遭受攻击可能导致单点故障,患者无法对自身医疗隐私数据进行访问控制,更无法对分散的医疗数据进行安全共享。因此,本文立
学位