【摘 要】
:
随着人类在生物医学领域的不断探索,生物医学领域的文献数量也在呈指数级的快速增长着。大量的文献使得研究人员从中获取相关知识变得越来越困难。本项目中,利用文本挖掘和自
论文部分内容阅读
随着人类在生物医学领域的不断探索,生物医学领域的文献数量也在呈指数级的快速增长着。大量的文献使得研究人员从中获取相关知识变得越来越困难。本项目中,利用文本挖掘和自然语言处理的相关技术,我们提出一个半自动的系统框架,用于从海量的生物医学文献中提取致病基因。我们致病基因提取框架包含三个部分:命名实体识别、关系抽取和基因排序。对于命名实体识别,我们通过扩展现有的基因库和疾病库,实现一个基于词典的基因、疾病匹配程序,去识别Medline的摘要中的基因和疾病。同时,我们还设计一些启发式的规则,过滤掉一些常见的误识别的基因和疾病。该混合方法的F-score可以达到0.822。在关系抽取阶段,所有出现在同一个句子中的基因、疾病二元组都被视为候选对象,我们训练了一个基于支持向量基的二分类器,用来判断这些候选对象中的基因和疾病是否相关。我们考虑了两类不同的特征,一是基因和疾病的上下文,即基因和疾病周围的单词,二是依赖树上的信息,1)依赖树上基因和疾病之间的最短路径上的一元组、二元组和三元组,以及2)基因和疾病的最小公共祖先到根节点上的一元组、二元组和三元组。在包含了 1000个正例和1000个负例的测试集上,10-交叉验证得到的F-score为 0.863。对于每一个疾病,我们使用三种不同的方法对与它相关的基因进行排序。最简单的是利用疾病和基因共同出现的文章个数作为分数进行排序。第二种方法考虑到不同文章的权重不同,我们利用Page Rank算法及文章之间相互引用图来计算文章的权重。第三种方法则考虑到同一个作者会在不同文章提及同一基因、疾病二元组,我们对这样的情况进行抑制。我们在10个疾病上进行了测试,三种排序方法的MRR分别为0.249,0.281和0.293。此外,我们取50个与疾病最为相关的基因,得到的F-score为0.259,这比已知的所有提取基因、疾病关系的系统都要高。
其他文献
随着社会不断发展,地球资源被大量消耗,生态环境破坏严重;森林城市的建设对生态环境的重要性显著,对区域生态平衡有着较大影响。森林与城市的共同发展改善了城市的生态环境,
射流及绕流是流体力学研究的重要内容之一,在工业领域涉及面广、影响面大。气体动理学格式可以应用于整个流域,是目前研究的热点。本文运用气体动理学格式研究了射流及绕流的适用性及流场特征。气体动理学格式可以从宏观和微观两个角度设置边界条件,本文构造了气体动理学格式中的麦克斯韦壁面边界条件、无反射边界条件等边界条件;同时基于气体动理学格式数值模拟了Poiseuille流和Couette流,将得到的流场速度与
石墨烯的成功制备使二维材料研究产生了质的变化,石墨烯拥有超高的载流子迁移率和优良的光电性质和力学性质,使得研究人员加快了探索二维材料性质、应用等方面的步伐。在本文中采用密度泛函理论第一性原理方法对蓝磷及其相关结构等二维材料的电子特性及光学性质进行了研究。首先,研究计算了1~4层蓝磷烯结构及其电子特性。研究结果表明单层蓝磷烯是间接带隙半导体,带隙大小为1.93 eV,当增加结构的层数并且变换叠加方式
针对燃煤锅炉受热面普遍存在的结渣问题,采用有机聚硅氮烷作为先驱体,通过提拉涂膜法在TP347基材上制备陶瓷涂层。本文在对前期有机聚硅氮烷先驱体陶瓷涂层技术研究基础上,分
目的:探讨唑来膦酸在晚期非小细胞肺癌骨转移患者中的临床效果及对血管内皮生长因子-C(VEGF-C)、环氧合酶-2(COX-2)表达水平的影响。方法:选择我院2017年2月-2018年4月治疗的
随着时代的迅速发展,环境问题和能源问题越来越成为当今世界最受关注的问题之一。铝空气电池作为新一代新能源电池,有着功率密度大、比能量高、原材料丰富、寿命长以及成本低
所谓数字半群的Frobenius数,指的是不属于数字半群S的最大正整数.著名的Frobenius问题为:给出Frobenius数只依赖于该数字半群的极小生成元系的计算公式.目前,关于嵌入维数不小于3的任意数字半群的Frobenius问题已知是一个N-P问题,因此,人们转而研究由一些特殊数列作为生成元系生成的数字半群的Frobenius问题.近年来,借助数字半群的Apéry集与Frobenius数之
判断一个图是不是泛圈的在图论中一直是个难题,关于泛圈图有两类问题一直被提问,第一,为了保证图是泛圈的,需要怎样的最小边数或者度的性质;特别是,哈密顿性的条件有多强才能保证泛圈性?第二,对于给定》值的最小泛圈图是什么?近几十年来,关于泛圈图的问题,国内外一大批专家学者给出了一系列泛圈图的充分条件,但在这些充分条件中,基本上是度条件和邻域并条件.所以,关于泛圈图的谱条件结论不是太多.本文首先简单介绍了
具有柑橘界“癌症”之称的黄龙病现已蔓延至全球众多国家.它主要由昆虫媒介木虱传播,对柑橘产业的发展具有毁灭性伤害.我国柑橘产区的疫情态势严重、蔓延速度加快,不仅影响了
线性互补问题是解决许多科学和工程问题的数学工具,其解的误差估计是这些应用中要解决的重要问题.2014年,Garcia-Esnaola和Pena在文献[Error bounds for linear complementar