面向生物医学文本及图谱的知识挖掘与知识发现

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:dwddKTV
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着生物医学的相关研究迅速发展,大量的领域数据及知识被发现与记录。构造生物信息知识图谱能够有效组织丰富多样的领域知识,从而进行信息检索、数据挖掘与知识发现,为生物学、病理学和药理学提供支持。生物知识图谱的构建过程需要知识提取、知识表示,知识融合以及知识发现等步骤。本文研究这一系列技术步骤中的两个关键问题,分别是面向生物医学文献的信息提取,和面向基因-疾病网络的关联预测,针对这些问题给出了专用的机器学习模型。本文完成的主要工作有:(1)为提取生物医学文献中的事件,提出一种基于混合神经网络的新型组合策略。海量的生物医学以献以非结构化的文本格式记录了大量知识,而事件是一种描述这些知识的有效结构。本文使用了混合深度神经网络模型提取事件相关信息,以消除对人工特征工程的依赖;并使用了一种组合策略作为后处理过程,来改善提取过程中的误差积累。在多个BioNLP公开事件数据集上的实验结果表面本方法的取得了良好的性能表现。(2)为预测基因-疾病关联,给出一个基于关联知识图谱的图卷积模型。众多的数据库记录了的大量的基因和疾病的关联信息,将其组织为知识图谱可以挖掘其中的隐藏知识。本研究使用基于图卷积网络的方法预测其中未知基因-疾病关联,描述了一种邻接矩阵Dropout技术并定义了一个新型的聚簇损失函数,用来增强模型的泛化能力。在DisGeNet数据集上的实验说明了本方法的预测性能达到了已有工作的最佳水平。(3)为解决文献挖掘和关联预测中标注数据不足的问题,给出了基于自训练的半监督学习方法。生物医学数据普遍存在的标记样本数量不足的问题,使得监督学习性能受限。本研究在文本挖掘和基因-疾病关联预测任务上应用了自训练方法,借助已有的标注数据和大量的无标注数据,按照预测结果可信度指标筛选样本,用来扩充标注数据集并迭代训练。对比实验的结果证明了原始模型加入自训练后取得了积极的作用。
其他文献
黄土高原是中华民族的发祥地,但由于长期掠夺式的开发利用,土地资源严重退化,地形支离破碎,水土流失极为严重,对土地资源的可持续利用构成巨大威胁,而且会严重影响到黄土高原
艺术管理是艺术学与管理学相融合的产物。近年来,国内文化产业兴起并不断发展,对相关人才的培养规模也在不断扩大,艺术管理备受人们的关注。艺术管理工作的优劣对艺术的发展
目的:观察协和饮治疗糖尿病腹泻临床疗效。方法:将58例患者随机分为西药常规加协和饮治疗组30例,另设西药常规对照组28例。结果:2组间腹泻症状显效率分别为66.7%与35.7%,有非
<正>一、教学目标设计1.知识与技能:了解质量守恒定律,练习巩固天平的使用。2.过程与方法:参与化学反应前后质量问题的提出、实验设计与解决的过程。3.情感、态度、价值观:体
客户关系管理(Customer Relationship Management简称CRM),在国内外已经非常流行了,各种各样的定义层出不穷。不同的角度、不同的行业,都会有不同的CRM及其实施方法:但基本原
目的探讨保鲜膜辅助硅橡胶取模的临床效果。方法随机选择设计固定修复67例牙齿缺失的患者:实验组35例在常规初次硅橡胶取模基础上加用保鲜膜,以覆盖剩余邻牙间隙;对照组32例仅
会计的重要任务之一是向会计信息使用者提供真实有效的会计信息,以便会计信息使用者据此作出判断和决策。然而,摆在我们面前的却是会计信息披露的大量失真现象,在上市公司中
本论文由三部分组成,第一部分为综述,概述了黄芪属的主要化学成分及药理研究进展; 第二、三部分为实验论文,分别报道了黄芪提取物的质量标准研究和慈竹茹的化学成分研究。第
作为一个社会人,道德在他的一生中都会起着十分重要的作用,而一个人道德体系的构建,主要是从他的整个家庭教育和学校教育中获得的,因此,道德教育是整个社会素质教育的重要任
工程量清单计价模式下的招投标是市场经济发达国家采用的一种较成熟的招投标模式。工程量清单是市场经济条件下的一种工程价格计算模式,采用工程量清单招投标是我国建筑市场