基于集成模型的生物医学命名实体识别研究

来源 :大连海事大学 | 被引量 : 1次 | 上传用户:heyjoey
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别任务是生物医学文本挖掘中基础且重要的任务之一,其对于实体识别的准确率会影响后续利用相关医学领域信息的效率,如关系抽取和事件抽取等相关任务的效率会受到影响。在现在的命名实体识别任务中,大多数使用的方法是神经网络与条件随机场结合的方法,神经网络比传统机器学习方法的好处在于不需要大量人工参与避免了特征构造的资源浪费。但是,目前大多数模型存在几个问题:一、时序特征获取不充分,深层隐含信息获取不全面。忽略了文本的局部特征,生物医学文献普遍句式较长,存在大量冗余虚词,重要的词汇混在大量虚词中,使得识别变得更加困难。二、空间局部特征使用不完全,以卷积神经网络(CNN)为代表的空间局部特征提取模型为例,模型速度快,但信息获取不全,容易丢失重要信息,识别效果不佳。故本文从改进模型结构入手,我们提出了一个基于双向长短期记忆神经网络(BiLSTM)和卷积神经网络的集成模型,并使用了注意力机制(Attention)和扩张卷积核对这两个模型分别进行了改进,以增加关键信息的权重并获得更广泛的信息。集成模型BiLSTM-ATT-HDC中的两个模型,一个是BiLSTM-ATT-CRF模型,是基于BiLSTM、Attention与条件随机场(CRF)结合的方法来识别实体,可以避免传统机器学习无法获取深层隐含信息的缺点,而且增强了深度学习方法对于重要词汇突出权重的能力。另一个是混合空洞卷积神经网络(HDCNN)与CRF结合的命名实体识别方法,增强了深度学习方法提取空间局部特征的能力。在NCBI-disease数据集中,BiLSTM-ATT-CRF 模型的 F1 值为 83.61%,比基模型 BiLSTM-CRF 提高了 1.08%。集成模型BiLSTM-ATT-HDC的F1值为84.04%,比基模型提高了 1.5 1%。综上,本文融合了两种深度学习方法提升命名实体识别的精度。在没有其他人工特征的前提下,本文在NCBI-disease数据集中取得了较高的F1值。
其他文献
花序长度是大豆株型性状之一,亦是重要的产量性状,同时影响产量、产量稳定性、栽培措施等大豆生产的诸多方面。在种质资源中,大豆顶生花序性状存在丰富的遗传变异。本研究以1
无线传感器网络凭借其低功耗、低成本和微型化等优点,被广泛的应用于环境生态监测、森林火灾预警等林业领域中。无线传感器网络是由大量的传感器节点组成,在网络部署和很多应
本研究以陶瓷刀具材料的微观组织演变过程为研究对象,以提高陶瓷刀具材料的力学性能为目标,在晶粒生长理论的基础上,通过改进蒙特卡罗模拟算法对无压烧结单相陶瓷刀具材料的微观组织演化过程进行了模拟分析;通过进一步改进算法,模拟分析了无压烧结含有金属液相和气孔的陶瓷刀具材料微观组织演变过程;在理论推导和数学模型的基础上,研究了超声空化对无压烧结含有金属Ni的Ti B_2陶瓷刀具材料晶粒生长的影响,并采用蒙特
外廊式钢筋混凝土(RC)框架结构因具备平面布置灵活、良好的采光和通风、成本低等优点,是我国中小学教学楼建筑常采用的建筑形式之一。在近年来我国所发生的地震中,此类结构在
生物防治是利用病原菌拮抗微生物来防治植物病害的一种符合现代农业发展要求的防治方法。本研究采用4种不同的接种方式研究Pseudomonas fluorescens G9、J13和R15在盆栽辣椒
随着我国铁路事业的高速发展和旅客对铁路客运服务质量要求的不断提高,铁路客运站的设计建设,更多的为旅客的安全出行、方便出行、温馨出行考虑,并进行优化改进。在春节、清明、五一、端午、中秋、十一、元旦和学生寒暑假等全国性的休假时间,车站承担的客流量会有明显增长,特别是在假期的前一天和最后一天,客流量会十分集中,因此车站需要排队通过的窗口和闸机等节点就很容易出现能力不足,甚至造成旅客拥堵的情况。在研究该流
随着国内经济繁荣发展,并购重组市场日益活跃,交易中隐藏的风险也逐渐凸显,此时作为一种风险管控工具,业绩补偿承诺制度应运而生。在实践中,业绩承诺却为资产高估值创造了条
导电聚合物在接触不同气体时电导率会发生变化,因此可以作为制备气传感器的材料。在众多导电聚合物中,聚苯胺(PANI)因其独特的导电机理、易于合成、环境稳定和易于加工等优点
犬猝死症可导致幼龄或青壮龄犬快速死亡,患病动物在发病后数小时内死亡,通常可引起气性坏疽、肠毒血症、出血性肠炎等病症,发病后通常由于无法及时治疗而导致死亡,因此,针对
本实验选择金叶女贞(Ligustrum×vicaryi)和金森女贞(L.japonicum‘Howardii’)1年生实生苗为研究材料,通过盆栽控水模拟土壤干旱胁迫,设置4个干旱胁迫梯度,土壤水分含量分别