基于生物医学文献挖掘的化合物与疾病关系识别

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:chenliu2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
化合物与疾病关系识别是生物医学文献挖掘中的一项重要任务,化合物与疾病关系有助于改善生物医学搜索引擎的搜索结果,缩短药物研发周期,减少药物研发成本。化合物与疾病关系识别,具体来说分为两个子任务——生物医学命名实体(以下简称为生物名称)归一化和化合物与疾病关系提取。归一化主要是为了解决生物医学文献中的生物名称形式多样、难以确认和归类的问题,任务主要目标是将文本中出现的生物名称匹配到生物医学标准概念上,现有解决方法包括字符匹配和关联矩阵学习,其中字符匹配的方法受限于归一化词典的覆盖范围,而关联矩阵学习的方法对陌生单词的刻画能力不足。化合物与疾病关系提取则需要根据上下文内容提取出文本中存在引发关系的化合物与疾病,现有方法包括共现频率统计、规则匹配和统计机器学习,其中共现频率统计方法准确率较低,而规则匹配和统计学习方法则需要人为设计规则或特征,耗费人工的同时也可能存在遗漏和偏颇。针对以上任务,本文的主要工作和贡献如下:1.基于语义匹配的生物医学命名实体归一化本文提出了基于语义匹配的归一化算法,其主要是依据上下文相似性来挖掘单词语义相似性并通过衡量语义相似性来进行匹配。本文首先收集大量无标记的、与生物名称相关的上下文并构造语义空间的词向量,然后采用深度学习网络来度量生物名称在语义空间中的距离,设计了基于排序思想的损失函数,并使用随机梯度下降算法对模型进行训练。计算实验表明,提出方法在NCBI测试集上取得了 85.3%的正确率,优于传统方法。2.基于卷积神经网络的化合物与疾病关系提取本文提出了基于卷积神经网络的化合物与疾病关系提取算法,主要是依据上下文中的关键性短语信息(局部关键信息)来提取化合物与疾病关系。本文将无监督训练的语义向量和相对位置信息组成单词的特征向量,拼接单词特征向量组成句子的特征图,卷积神经网络在特征图上进行卷积操作和池化操作来捕获局部关键信息。计算实验表明,提出方法在CDR测试集上取得了 50.67%的F值,较传统方法人工参与少、覆盖能力强。
其他文献
有刷双馈感应电机结构简单,投资较低,因而被广泛应用于风力发电领域。但其电刷与滑环组件的存在,带来可靠性低、维护成本较高等问题,因此双馈电机的无刷化成为研究的热点。旋
目的:系统评价中药熏蒸治疗失眠的有效性及安全性。方法:按Cochrane系统评价方法,计算机检索Cochrane Library、MEDLINE、EMBASE、Pub Med、中国生物医学文献数据库(CBM)、万
加入WTO后,我国应进一步加强集成电路与软件的保护。关于集成电路知识产权的保护,世界知识产权组织已主持制定了《关于集成电路的知识产权公约》,我国企业应及时研究有关规定,跟
随着党的建设的生命工程即马克思主义理论研究和建设工程的不断推动,加之目前国际、国内情形的发展变化,进一步提升和完善大学生马克思主义理论教育势在必行。目前,受国内外
本文根据集成电路产业在国内外的不同发展水平、市场特点,结合行业实践的经验,对处于创业初期的中国国内IC设计服务公司的商业模式及创业型IC设计公司的模式进行了探讨,并提出了
介绍了索风营发电厂水轮发电机通风系统的设计及实际运行情况,并通过发电机通风试验对发电机通风现状进行了分析。
政治平稳性思想是列宁后期思想的一个重要表现,所谓列宁的后期思想就是指十月革命以后列宁关于俄国经济政治建设的思想,所谓列宁思想的政治性是指从政治的角度来解读列宁的思想
舞台剧《夔龙玉》暑期档在北京演完一轮,入秋后就开始了第二轮演出。剧的内容不出奇,无非是以明英宗为原型的“明朝那些事儿”。有趣的是舞台剧的前缀“古风”,以及创作团队所标
报纸
消防工程是一门应用性、实践性极强的专业课程,为此,在该门课程的教学中,实验教学体系具有非常重要的地位,并且学校开设消防工程专业实验教学的目的也是为了促进学生更好的理