面向小样本不平衡数据的生物医学事件抽取方法研究

来源 :吉林大学 | 被引量 : 9次 | 上传用户:ymqlove
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着分子生物领域文献呈现爆炸式增长,科研人员要从海量的非结构化或半结构化电子文献中获取需要的特定知识,传统的阅读方式已经不能满足人们的需求。最近几年,研究者们利用文本挖掘技术在生物医学领域进行命名实体识别,关系抽取任务。然而仅仅这些不足以帮助科研工作者们理解持续增长的复杂生物医学文本。因此,生物医学的文本挖掘技术从命名实体识别和关系抽取逐渐转变到细粒度的复杂事件抽取。生物医学事件抽取旨在抽取生物过程中的语义和角色信息,这种事件通常具有复杂的结构,并且具有多种类别。而采取结构化的知识获取生物医学事件的表示是至关重要的,通过有效且准确的方法抽取生物医学事件也是必然的。生物医学事件抽取有助于基因本体库、蛋白质关系库和通路数据库等的挖掘整理工作和研究效率。现存的生物医学事件语料库存在两个问题。第一,小样本问题。当语料库的样本过少时容易产生过拟合,并且容易造成分类结果精确率较高,但召回率较低;如果进行人工标注样本则需要花费巨大的代价。第二,样本数据分布不平衡的问题。在关系抽取任务中,都是基于一个基本假设——数据分布是均匀的。但应用到实际数据后,往往都无法取得理想的效果,因为大多数实际数据不会拥有完全相等的分类数据集。特别是当正例样本与负例样本之间存在数量级差别,会造成分类器向多数类样本倾斜,分类模型的效果明显下降。因此,本文采用对模型的事件抽取方式,从句子表示和样本有效选择出发,深入探讨和研究预测修正、半监督学习和主动学习方法以解决生物医学文献中的多类别事件分类的小样本和样本的不平衡问题,有效地提高了生物医学事件抽取的性能。本文的主要工作内容如下:(1)针对生物医学事件抽取中的小样本问题,在半监督框架下,提出了一种基于支持向量机分类模型和卷积神经网络模型协同学习的生物医学事件抽取方法。首先,通过人工设计的丰富特征集的支持向量机分类模型对无标记的生物医学语料进行事件抽取。其次,通过对事件样本集中各个样本的依存路径进行信息扩展,生成两种新的表示,分别为依存词序列和依存类型序列。并采用基于两种序列向量作为输入的卷积神经网络模型对无标记语料进行事件抽取。将协同学习得到的伪标记样本结果进行融合,根据冲突概率评估规则,对两种结果进行甄选,增强训练集。在测试阶段,采用SVM分类模型进行预测。通过大量的实验对该方法的性能和效果进行了评价,实验表明,所提出的方法能够很好地缓解生物医学事件语料库中存在的小样本问题,提高分类模型的性能。(2)针对生物医学事件抽取中数据集样本分布不平衡问题,提出了一种基于序列模式的样本过滤和联合评分机制的决策评估方法,用于改善分类性能,提高生物医学事件的识别率。首先,采用序列模式算法抑制负例样本,从而限制正负例样本比例,确保样本对分类器结果的影响趋于平衡,加快收敛速度;其次,考虑多参事件中触发词和参数之间的联合信息,利用支持向量机模型对多参事件的三元组进行抽取,并对二元关系和三元关系的预测结果进行融合。最后,采用结合触发词重要度和基于卷积深度结构性语义模型的句子相似度的联合评分机制,对预测结果进行决策修正。在常用的Bio NLP共享任务中的GENIA 2011和GENIA 2013数据集上进行了实验,结果表明,本文所提出的方法,通过均衡正负样本的分布,弱化分类边界偏向多数类的情况,并对分类结果进行修正,在能保证较高的事件抽取召回率的同时提高了精确率。(3)针对生物医学事件中存在的小样本和类别分布差异,将半监督学习与主动学习结合,提出一种基于聚类查询合成置信度评估的生物医学事件抽取方法,对低置信度和高置信度样本分别进行专家标注和自适应扩充。首先,利用支持向量机模型对无标记的生物医学语料进行事件抽取,构建待分析数据集。其次,在待分析数据集上进行聚类,划分各个类簇中的代表类别样本和非代表类别样本,分别查询代表类别样本中的离群点和非代表类别样本中的近中心点,合成两种类型的样本点为异常点,并将异常点作为低置信度样本交由专家标注,而其他的样本则为高置信度样本。根据生物医学事件中各个事件类别的分布,自适应扩充各个事件类别的高置信度样本,调整多类别事件之间样本分布差异性和小样本问题。实验结果表明,与其他事件抽取方法相比,本文所提出的方法能够实现更好的生物医学事件抽取性能,提升分类模型的泛化能力。综上所述,本文针对生物医学事件语料中存在的小样本不平衡问题,从扩充数据集并调整各事件类别样本分布的角度出发,深入的探讨和研究半监督学习、预测修正和主动学习方法。提升了生物医学事件抽取分类器的泛化能力,以及事件抽取的准确性和鲁棒性。
其他文献
目的:调查了解某战区空军机务官兵口腔健康与口腔医疗需求现状,为制定口腔保健措施提供依据。方法:选择某战区空军机务官兵788例,采用整群抽样的方法,以临床检查的形式进行现
应用元胞自动机理论构造道路交通仿真模型,并根据道路交通的元胞自动机模型分析了交通需求变化、随机减速规则和驾驶者习惯对道路交通系统的影响。交通需求越大,道路出现堵塞的
建构最恰当的辅助函数是高等数学解题中的难点,看似无章可循,但仔细研究仍不失基本方法和一般规律,问题是如何加以归纳总结,本文根据高等数学各部分知识间的内在联系,以实例
目的:探讨血清前白蛋白(PA)、白蛋白(ALB)检测对肝病患者病情严重程度及预后评价的临床意义。方法:对45例肝病患者和30例健康体检者进行PA、ALB检测并进行比较。结果:肝硬化、肝癌组
目的:探讨蒙古(蒙)族和汉族精神分裂症患者应用齐拉西酮治疗的剂量、疗效、安全性及血药浓度差异。方法:72例首次发病的精神分裂症患者根据民族分为蒙族组(34例)和汉族组(38例),均给
<正>当前全国上下都在以各种形式热烈庆祝中华人民共和国成立70周年。财政是国家治理的基础和重要支柱,财税体制与经济、政治、社会、文化各方面联系紧密,财税改革对中央与地
采用"机械格栅+混凝沉淀池+涡凹气浮+水解酸化+UASB反应器+CASS反应池+斜管沉淀池"工艺处理某药厂生产废水和少量办公生活废水.处理规模为400 m3/d,其中固体制剂废水及生活废
目的:探讨四君子汤联合循证矫正理念对海洛因成瘾患者的效果及患者不良反应发生的影响。方法是选取2018年1月-2019年1陕西省某戒毒所已进行脱毒治疗三个月以上,再次自愿进行
本期提示$$ 江苏省靖江市环保局通过细化岗位职责、优化工作流程、硬化目标管理、强化监督考核的“四化”行动,全力打造责任型、服务型、效能型和清廉型环保,引领管理服务体
期刊
观点"城市综合运营正逐渐成为大型房企的转型方向。地产商需要具备开发、运营和整合的综合能力,才能成为真正的城市运营商。""只有提前准备好应对之策的第三代房企,才有可能