基于多粒度信息的中医文本关系抽取的研究

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:chenrongxu222
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:中医领域知识主要是以文本的形式存在,具有无规律的语言特性,中医知识的有效挖掘对充分利用文本中蕴藏的经验知识具有重要作用,信息抽取任务是中医知识管理的重要子任务,而关系抽取又是信息抽取任务中的重要环节。针对单粒度信息关系抽取方法中存在的句意传递错误和文本语义丢失的问题,提出将句子中的多粒度信息应用于中医文本关系抽取任务,构建多粒度信息抽取模型,将词语级信息整合到字符序列中,多种粒度的文本信息可以为模型提供更多的知识引导,更全面的挖掘语义特征。实验结果证明,此方法能够更加精确的抽取中医文本关系,使模型具有更好的鲁棒性,基本不受噪声的影响。
  关键词:多粒度信息;关系抽取;深度学习;中医文本
  中图分类号:TP3        文献标识码:A
  文章编号:1009-3044(2021)27-0015-02
  1引言
  中医知识包含了中华民族千百年来在和疾病斗争中总结的丰富诊疗经验,在长期发展的过程中也形成了一种独特的诊疗体系,留下了大量对现代疾病诊断具有重要指导价值的文献资料。然而,中医文本信息尚未得到有效利用,关系抽取[1]技术是有效利用中医文本信息的关键技术之一,目的是提取中医文本实体对之间的语义关系[2]。例如:“若兼有气虚者,身倦乏力,少气自汗宜加黄芪,并加以重用,以补气行血”,这句中的“黄芪”和“气虚”是“治疗”的关系。
  随着深度学习[3]的不断发展,以其自动提取特征的优势被更多地应用在关系抽取任务中[4]。目前大多数的关系抽取模型是基于字粒度或者基于词粒度的单一粒度进行抽取。基于字符的关系抽取将每个输入语句视为一个字符序列。这种方法不能充分利用词语级信息,捕获的句子特征较少,字符、语法和语义之间的关系较为松散,无法完整的表达出句子语义,比如“羌活”这个词如果拆成字粒度就成了“羌”和“活”,这两个字的单独含义明显与它们组合起来的词的含义大相径庭。所以利用字粒度信息捕获的句子特征比较少,存在“文本语义丢失”的问题,完全依赖字符进行关系抽取效果不佳。基于词粒度的关系抽取模型,首先要进行分词,然后推导出单词序列,再将每个词语表示为词向量,输入到神经网络模型中,利用词粒度信息容易引入词语分割错误带来的“句意错误传播”问题。例如给定中医句子:“酒黄疸,心中懊或热甚而痛,栀子大黄汤主之,盖为实热之邪立法也”。句中黄疸和大黄是治疗关系,但是经过分词操作之后“栀子大黄汤主之”被分为“栀子”“大”“黄汤”和“主之”,分完词之后没有得到“大黄”这个词。
  因此,基于单粒度信息的抽取方法会存在“文本语义丢失”和“句意传递错误”的问题。本文结合字符粒度信息与词粒度信息的优点,使用多粒度信息[5]对中医文本进行特征学习,既利用了字粒度模型参数少和不依赖分词算法的优点,解决句意传递错误的问题,同时利用了词语中包含的词法、句法和语义等信息,捕获更多的文本语义特征,解决文本语义丢失的问题。两种粒度方法互为补充,提升了中医文本关系抽取的效率。
  2 多粒度关系抽取模型
  对于基于字符级信息和词语级信息训练的模型存在文本实体分割错误问题,不能够充分利用句子的语义特征,限制了模型挖掘深层语义特征的能力。本文利用多种文本粒度的,为模型提供更多的知识引导,从而获取句子更充分地語义信息,模型具有更好的鲁棒性,基本不受噪声的影响。多粒度关系抽取模型是在基于字符的双向长短期记忆网络[6](Bidirectional long short-term memory network,Bi-LSTM)的结构基础上增加了词粒度信息流,利用门结构控制信息的嵌入。模型结构如图1所示。
  基于多粒度信息的中医文本关系抽取模型分为四层,分别是嵌入层、编码层、注意力层和分类层。
  2.1嵌入层
  由于神经网络的输入是数值类型数据,所以在对文本编码之前需要将中医文本数据转换为数值数据表示。本文的多粒度信息包括字粒度信息和词粒度信息,同时利用位置信息,因此在嵌入层需要将字符、词语和相对位置信息进行向量化表示。
  (1)字词嵌入
  在通过神经网络处理之前将预处理之后的中医文本进行向量化表示,本文采用的是word2vec技术把文本中包含的字符和词语分别映射成具有一定维度的实值向量,很好地表达了字和词语的语义依赖关系。嵌入层中的[l]表示字符和[w]表示词语分别映射为字向量[dl]和词向量[dw]。
  (2)位置嵌入
  关系抽取是预测句子中两个实体存在的关系,一般距离实体对越近的字隐含表达实体对的关系的贡献越大。句子的每个字符都有两个位置信息,分别代表与头实体和尾实体的相对距离,例如给定中医句子“若兼阳分气虚,而脉微神困,懒言多汗者,必加人参”。此句子的头实体是“脉微”,尾实体是“人参”,字“加”与头实体的相对距离为10,与尾实体的相对距离是0。
  2.2编码层
  本文使用基于网格结构的双向长短时记忆网络(Lattice BiLSTM)作为编码器,该模型是基于字符的双向长短期记忆神经网络(BiLSTM),将字符作为直接输入,即将每个输入句子作为字符序列,不同点在于增加了词粒度信息流,在字符输入的同时嵌入词语信息,利用句子中包含的多种粒度信息。模型编码层中[x]表示编码层的输入,[h]表示正向隐藏层,[h]表示逆向隐藏层,[h]表示汇总隐藏层。隐藏层计算如下公式所示,[hci]表示第i个隐藏单元状态。
  2.3注意力层
  在实际应用场景中,句子中有些字符对预测两个实体关系具有更加重要的地位。例如给定中医句子“黄疸腹满,小便不利而赤,自汗出,此为表和里实,当下之,宜大黄硝石汤”,在预测“黄疸”与“大黄”之间的关系时,字“宜”比其他字对关系预测的贡献更大。为了使模型能够获得对关系抽取贡献较大的特征,本文通过给句子中的每个字分配权重,增强句子的局部特征。   字级注意力机制的公式如下所示,[w]表示参数矩阵,[H]表示句子向量。
  2.4分类层
  分类层又称为Softmax层,在关系抽取任务中常用作为整个网络模型的输出层。使用Softmax函数作为激活函数将多个神经元的输出映射到(0,1)区间内,将关系预测看成求概率的问题求解。
  3实验
  本文主要采用多粒度信息对中医文本进行抽取,为了验证模型对处理多粒度信息的有效性,将分别采用基于字粒度和基于词粒度信息对中医文本进行关系抽取作为对比实验。数据经过筛选和预处理之后,将已完成标注的文本数据划分训练集和测试集以进行关系模型的训练和测试。
  图2分别展示了本文提出的基于多粒度信息的关系抽取模型、基于字粒度信息关系抽取模型和基于词粒度信息关系抽取模型在中医文本标注数据训练集和测试集上的实验结果,通过结果对比发现本文提出的基于多粒度信息的关系抽取效果优于基于字符和词语的单粒度关系抽取效果。为了评估模型对中医文本两个实体关系的抽取效果,本实验采用F1值作为评估标准。
  4结论
  本文提出使用多粒度信息方法对中医文本进行关系抽取,综合字粒度信息和词粒度信息表达句子特征的优点,使用基于网格结构的BiLSTM网络构建模型解决中医文本的关系抽取问题,在字符信息嵌入的同时融合了句子中潜在的词粒度信息,能够利用显性词汇信息获取更多的句子特征,同时降低了由于分词错误导致模型学习到错误信息的概率,模型经过训练之后,能学会自动从文本语境中寻找贡献较大的词汇,取得更好的抽取效果。
  参考文献:
  [1] 罗计根,杜建强,聂斌,等.基于双向LSTM和GBDT的中医文本关系抽取模型[J].计算机应用研究,2019,36(12):3744-3747.
  [2] Cao YX,ChenD,XuZQ,et,al.Nested relation extraction with iterative neural network[J].Frontiers of Computer Science,2021,15(3):1-14.
  [3] 鄂海红,张文静,肖思琪,等.深度学习实体关系抽取研究综述[J].软件学报,2019,30(6):1793-1818.
  [4] 庄传志,靳小龙,朱伟建,等.基于深度学习的关系抽取研究综述[J].中文信息学报,2019,33(12):1-18.
  [5] 聂维民,陈永洲,马静.融合多粒度信息的文本向量表示模型[J].数据分析与知识发现,2019,3(9):45-52.
  [6] 劉建兴,蔡国永,吕光瑞,等.基于深度双向长短时记忆网络的文本情感分类[J].桂林电子科技大学学报,2018,38(2):122-126.
  【通联编辑:代影】
其他文献
继前几篇连载介绍了三菱梯形图编程软件GX Developer、梯形图转单片机HEX软件后,本文介绍烧录软件STC-ISP.1烧录软件界面在连载三图3-1界面上点击“STC烧录软件”按键,弹出烧录软件STC-ISP的界面,如图4-1所示。虽然该界面看上去比较复杂,但这里用到的仅有单片机型号、串口号、打开程序文件、下载/编程(烧录代码)等几项.
电梯常常是1台设备单独运行,由于只有1台设备,有效台数小于4,所以求它的计算电流,既不能用需要系数法,也不能用苏联导则的利用系数法[1],本文采用新需要系数法求电梯的计算电流,计算结果比较接近实际,并提出电流功率比的概念,使设计计算过程变得非常简单。
摘要:悬臂式掘进机掘进系统为复杂的液压时滞系统且负载突变,其控制器PID参数采用传统的算法易早熟收敛而导致控制系统动静态性能不佳等问题。针对上述问题采取混合算法的思想,提出了一种Chaos-PSO混合优化算法,并应用在掘进液压控制系统PID参数的优化上。结合控制系统的传递函数,采用Matlab进行仿真分析,结果表明Chaos-PSO混合优化算法与经验整定法及模糊控制法比较,其算法实现简单,上升时间
摘要:近年来,随着公共交通领域大数据、云计算、移动支付等新兴科技的应用,城市公交、轨道交通等公共交通行业都推出了二维码App实现了“刷手机”乘车。在为用户出行带来便捷的同时,出现了各App平台的信息数据不互联互通和二维码规范不一等问题。这给用户换乘交通工具时带来了不便,同时增加了交通部门的管理成本。本文基于HTTPS(Hyper Text Transfer Protocol over Secure
近年来,随着金融一体化进程的推进,保险公司经营与金融市场发展联系日益密切,在这种纷繁复杂的金融环境中,保险公司却屡屡出现“退保风潮”,“客户大规模挤兑退保”等许多群体事件.为探究其原因并得到有效的解决方案,现利用SPSS(“统计产品与服务解决方案”软件)对保险公司客户退保数据进行分析,探索各个指标之间是否存在关联及主要退保因素.通过类似的分析,保险公司可以在设置保险方案时综合考量各类险种的退保情况及退保影响因素,做出合理调整;也可以对具有典型特征的客户推荐符合其实际情况的险种,减少非正常原因的退保情况.
摘要:文本分类是自然语言领域一个重要的研究方向和技术核心,一直受到研究者的热切关注。在医学领域,中医源远流长,在人类历史发展中发挥着不可磨灭的作用。中医语言包含了大量中医领域术语,且多为表述严谨和富含辩证思维的古文,上下文词语关联性较强,且大多是结构化、半结构化或非结构化数据的形式,这些特点给中医病案的智能分析分类造成了很大地困难。该文基于注意力机制的深度学习模型Bert模型实现中医深层全局语义的
摘要:我国煤炭行业经过长期的发展,逐步形成了以煤炭贸易商链接上下游客户的煤炭供应链。煤炭交易数据反映着煤炭供应链上下游客户、产品的供求关系,对其进行数据分析及可视化表达对于煤炭贸易行业显得尤为重要。该文在对煤炭交易及相关数据进行深度分析的基础上,使用Vue框架及前后端分离开发技术,借助Echarts等开源可视化框架,通过各种形式的图表、地图等的可视化显示,从多个角度展示了煤炭交易的实时动态,并挖掘
摘要:该文主要研究内容是油料供应管理系统电子印章应用。针对当前油料供应管理系统在数据交换中出现的主要问题,论文从油料供应管理电子印章平台结构设计、安全设计和系统功能几个方面提出了具体的应用方案,构建基于应用层面的安全保障体系,为电子凭证合法、安全提供可靠保障,圆满解决了这些问题。本方案为电子印章在后勤领域其他业务系统的应用提供了很好的借鉴。  关键词:电子印章;油料供应;供应管理  中图分类号:T