面向生物医学文本的关系抽取研究

来源 :大连海事大学 | 被引量 : 0次 | 上传用户:z2602650
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物医学领域的研究发展日益迅速,领域文献的数量呈指数增长,如何自动有效地从这些文献中提取有价值的信息变得越来越紧迫。生物医学文本关系抽取主要是对标记的医学实体之间潜在语义关系的展现,例如药物与疾病之间治疗关系、基因之间的突变关系、化学物质和疾病之间诱导关系等。目前,关系抽取任务大多采用深度学习的方法,该方法的主要优点是不仅减少了大量的人工参与而且还能自动捕获特征。然而现有的模型仍存在以下几个问题。一、目前没有很好的模型融合方法既捕获层次特征,又可以捕获序列特征,并且特征表示单一,不够充分。二、生物医学文献中的相关实体由于句式结构的复杂性普遍存在歧义性,模型鲁棒性差以及类别不平衡的问题。解决问题之前本文在DDI任务上对三种池化操作以及超参数进行评估,本文使用CNN和BLSTM模型作为评估的基准模型,使用不同池化操作,不同的Dropout值,不同的L2正则化,分别组合评估对基准模型的影响。并通过大量实验对比得到最优超参数组合并应用到本文提出的模型中。本文针对以上存在的问题,在药物和药物间相互作用(DDI)的任务上展开了研究。具体的研究内容如下:一、针对现在主流模型存在的问题,提出基于多通道Conv LSTM生物医学关系抽取模型,从多通道词嵌入和ConvLSTM两个方面减少对特征工程的依赖,并自动学习特征。本文基于六种预训练词向量设计了多通道架构用于捕获更丰富的特征。另外,Conv LSTM既可以实现LSTM所具有时序建模能力,还可以像CNN一样描述局部特征,这样既可以捕获时序特征还可以捕获局部特征。二、本文引入ELMo情境化词向量以优化样本存在的歧义性问题,同时引入对抗训练来增强模型对样本的鲁棒性;为了缓解类别不平衡所导致的训练偏置问题,提出带权学习的损失函数。实验结果表明,本文在DDI任务上取得了较好的F1值,证明了本文模型的有效性。本文研究对于DDI任务来说具有重要的意义,也对于药物安全以及药物治疗方面起到推进作用。
其他文献
随着各大商港集装箱的吞吐量和大型集装箱码头的承载能力迅速提升,商港危险品货物的错误申报、瞒报谎报等现象日益凸显,持续爆出的危险品安全和信息来源问题令公众焦虑不已。危险品信息来源不仅关系到人身安全、财产安全,还牵涉到社会的稳定、信任和监管运营问题。针对上述问题,本文设计了一个基于联盟链的商港危险品可信溯源方案,对方案中涉及到的联盟链关键技术和问题进行了较为深入的研究,为商港危险品可信溯源提供理论依据
学位
图像配准作为图像处理领域的关键技术,在遥感图像技术等领域具有广泛应用。但是,当不同设备获取的图像由于地物位置、成像时间、拍摄角度等差异时,会产生如旋转、缩放、扭曲等非刚性变化。当局部存在剧烈非刚性变化时,就形成了局部畸变图像。复杂的非刚性变化会导致畸变区域检测的特征点少、匹配数量少、误匹配率高,从而增大图像配准的难度。因此,本文提出ORB-DTM匹配算法。利用改进的基于四叉树的ORB(Orient
学位
近年来,半导体光催化剂被广泛应用在环境治理方面,二氧化锡(SnO2)半导体作为一种环境友好型光催化材料,可以有效降解空气和水中的有机物,将其转化成CO2和H2O等无害物质。但由于较宽的带隙(Eg)导致吸收太阳光的能力受限,无法大面积推广应用,因此需要通过改性研究将SnO2对光的吸收拓展到可见-近红外(visible and near-infrared,Vis-NIR)光区域,并提高Vis-NIR光
学位
将2D形状分解为多个更简单的部分或零件是形状分析任务中的一个基本步骤,比如形状几何处理或者形状分类识别等任务。其原理是在简单的部分上进行计算或处理通常比直接在整个形状上操作效率更高,尤其是在形状本身较为复杂、细节较多的时候。不过,尽管已经存在大量认知学方面的研究,对于部分或者零件的定义目前仍然停留在语义上,并没有严格规范,这使得有意义的形状分解至今还是颇具挑战。2D形状分解研究中常用的三种认知规则
学位
RFID技术作为物联网的核心技术之一,由于其快速扫描,无接触式识别等优点被广泛应用,尤其是在物流管理、仓储管理和供应链管理等领域。通过使用RFID技术可以检测到仓库内的商品信息及库存情况,提高了人工管理仓库的工作效率。但是由于人工的疏忽与纰漏,会导致部分商品发生丢失,此时需要快速检测到丢失商品,以减少商家的经济损失,所以就需要使用丢失标签检测协议来检测出丢失的商品。当前大部分的丢失标签检测协议是针
学位
癌症作为一种威胁人类生命和健康的重大疾病之一,其发病率和死亡率呈现逐年上升的趋势。对癌症患者的生存期进行精准的预测能够帮助医生制定有效的个性化诊疗方案,也可以帮助患者更好的了解自身情况。随着高通量技术的发展,基因组数据被证实了在癌症发生发展过程中发挥了至关重要的作用,使用基因表达数据对癌症患者的生存期进行预测能够帮助医生做出更好的治疗方案并给出临床解释。现如今,生存预测模型已被广泛应用于研究患者协
学位
随着太阳能资源利用力度的加大,全球太阳能光伏系统的总量迅猛增加。对光伏系统进行检测计数可以更有效监管和维护光伏板,实现用电区域的合理规划。同时,统计光伏电站已安装光伏组件的数目,可以方便企业进行资产盘点、项目收购、内部考核等,有利于合理规划光伏板组件安装计划,具有实际应用价值。目前,专门针对光伏板快速检测和计数的研究尚不充分,仍然以人工对航拍图像处理为主,耗时耗力,图像目标检测技术可以很好缓解这一
学位
随着信息技术的迅速发展,如何有效地对海量数据进行分类是数据挖掘领域面临的挑战。集成学习是解决该问题的一种重要方法,其通过组合多个基分类器显著提升了模型的预测效果,被广泛应用于网络数据分析、生物信息识别等领域。然而,海量数据中往往包含着大量冗余特征,影响基分类器的性能。另外,集成模型的基分类器数量会对模型的预测性能造成较大的影响。针对上述问题,本文提出了一种新的多粒度进化森林(Multi-Grain
学位
多摄像头下行人运动轨迹追踪是指通过不同摄像头拍摄的场景中行人的穿着、姿势、携带物等外观和身体特征来识别目标行人,从而确定在多个非重叠摄像头视域内的目标行人出现的先后顺序和位置。目前该项技术已经发展成为机器视觉、人工智能领域的重要研究方向之一,同时被逐渐应用于公共安防,成为视频案件分析的重要手段。目前在多摄像头下行人运动轨迹追踪领域,所采用的研究方法已由传统的机器学习方法转向深度学习方法。同时在行人
学位
近年来,基于可持续资源的能源生产变得越来越重要,太阳能作为一种清洁可再生能源,其开发和应用前景广阔,备受各国青睐。在过去的几十年中,光伏组件产量一直稳定增长,并且未来有望成为主流能源利用形式,有着不可估量的发展潜力。随着机器视觉技术在工业检测领域的广泛应用,无人机航拍巡检成为发展的趋势,利用图像处理技术对航拍光伏阵列影像进行处理与分析是航拍巡检的新要求,主要包括图像拼接、缺陷检测、光伏用地检测和太
学位