【摘 要】
:
蛋白质交互(Protein-Protein Interaction,PPI)作为生物医学领域一项重要的研究课题,在发现疾病,探究生命规律方面有重要的应用价值。随着互联网的快速发展,生物医学文献呈指数级增长。依靠人工阅读的方式,从海量非结构化的文本中获取PPI的有效信息很难满足实际需求。因此,如何设计算法从大量文本资源中准确提取信息,实现自动化PPI信息抽取的这个问题亟待解决。目前蛋白质交互关系识别
论文部分内容阅读
蛋白质交互(Protein-Protein Interaction,PPI)作为生物医学领域一项重要的研究课题,在发现疾病,探究生命规律方面有重要的应用价值。随着互联网的快速发展,生物医学文献呈指数级增长。依靠人工阅读的方式,从海量非结构化的文本中获取PPI的有效信息很难满足实际需求。因此,如何设计算法从大量文本资源中准确提取信息,实现自动化PPI信息抽取的这个问题亟待解决。目前蛋白质交互关系识别主要采用基于单句和基于大规模文本两种方式。基于单句的蛋白质交互关系抽取,只依赖单个句子,很难掌握目标蛋白质对的全面描述信息。基于大规模文本的交互关系抽取,虽然获取了目标蛋白质对更全面的信息进行PPI判断,但是对于有交互的蛋白质对下会有一些句子没有表达蛋白质之间的交互关系,将所有句子同等看待,会抽取出一些无效的特征,从而影响识别的精度。针对两者各自存在的缺陷,本文首先建立了基于双层逻辑回归分类器框架的基本模型,利用多实例多标记学习关系抽取框架来对目标蛋白质对进行表示,充分结合了蛋白质对的局部信息和全局上下文信息。利用训练后的分类器在测试数据集上进行预测,结果表明,本文的模型取得了较好的识别性能。接下来本文主要从单句级和蛋白质对级两个层面对基本模型进行改进,设计了基于多层次线索的PPI识别改进模型。对于包含核心词的蛋白质对,利用句子重要性、句子相似性以及关键词集等概念对包含核心词集的蛋白质对从蛋白质对级上抽取额外的特征进行特征改进。和基本模型相比,有交互蛋白质对的F1度量最高提高了2.8%,无交互蛋白质对的F1度量最高提高了1.9%。对于无核心词的蛋白质对,观察到有交互的蛋白质之间单词数量明显少于无交互的蛋白质,因此采用图模型来对每一个蛋白质对进行建模,利用不同句子中单词之间以及单词和关键词之间的相似性来构建边。对于最终得到的图模型,利用图的相关属性抽取有效线索来对句子级分类器特征进行更丰富的展示。相较于基本模型,有交互蛋白质对F1度量提高了2.9%,无交互蛋白质对提高了2.5%。整体来说,该改进模型的抽取性能有明显提升,并且抽取结果更加稳定。
其他文献
壳质组是煤岩显微组分三大组分组分之一,虽然其储藏量较少,却有着较高的氢含量、产烃能力和挥发性能,广泛应用于油气的生成。因此,对煤岩壳质组进行自动分类与识别极具研究意义。本文在分析比较煤岩壳质组显微图像特征的基础上,针对其结构复杂、多样、采用传统的方法构建特征量集信息冗余量大等问题,采用卷积神经网络模型对壳质组显微图像的特征量进行提取,构建适合于小样本分类问题的支持向量机分类器进行分类,并与由传统的
复杂疾病严重影响人的身心健康,发现疾病致病基因是医学领域一直以来的研究目标。随着生物信息学的出现及生物技术的快速发展,为了克服传统生物医学方法实验周期长、成本高等固有困难,研究者提出许多利用大量生物数据挖掘疾病致病基因的基因优先排序算法。但由于目前已知的基因-疾病关联矩阵仍然非常稀疏,并且缺少基因-疾病之间无关的证据,对基因优先排序算法预测性能造成一定影响。基于功能相近的基因突变可能引发类似的疾病
位于太平洋东北部的Cascadia海域地区包括了Juan de Fuca洋中脊及其邻近的转换断层、Juan de Fuca板块和Cascadia俯冲带等活跃的地质构造带。作为中速扩张洋中脊的代表,Juan de Fuca洋中脊及其生成的板块在全球海洋岩石圈演化中占据独特地位;而Cascadia俯冲带可能发生的地震又对北美大陆西部的广大区域及在该区内密集分布的人口构成了严重的威胁,因此对于这一海域地
目的:探索乳腺癌新辅助化疗后病理未完全缓解患者的预后因素,并评估其对预后的影响。方法:回顾性分析2010年1月至2015年1月期间就诊于河北医科大学第四医院乳腺中心,461例新
透水混凝土具有良好的透气性和透水性,能缓解城市的热岛效应和内涝灾害等问题,在“海绵城市”建设的大背景下,透水混凝土得到了越来越多的青睐。然而,由于透水混凝土自身的特点,其强度和透水性能之间的矛盾至今不能得到有效解决,强度不高也是限制其广泛应用的主要因素。因此,在兼顾透水性能的前提下,改善透水混凝土的力学性能对透水混凝土的应用与推广具有很大的现实意义。为了得到更高强度的透水混凝土,本文在净浆试验研究
飞行器做跨音速飞行时,气动弹性问题较为突出。传统的基于线性假设对N-S方程进行简化得到的势流方程在进行跨音速气动弹性分析时就存在明显的偏差。CFD方法可以高精度的求解
西部食蚊鱼(Gambusia affinis)自侵入中国,已有近一百年的历史,广泛分布于长江流域及以南地区。由于各地环境差异大,成功入侵的食蚊鱼必定产生相应的生理、形态等方面的适应。有研究表明,与常规环境相比,极端环境(低氧、高盐、洞穴光线的缺乏、酸性及毒性环境)下的鱼类会产生相应的形态学变化。而脑作为神经调节系统和体液调节系统的控制中枢,其是否随环境差异产生适应性的结构变化以及脑部结构变化又会对
为了确保社会的可持续发展,亟需开发环境友好和可再生技术。太阳能被认为是一种高度清洁和可持续的能源,因此直接利用太阳光是解决环境和能源问题的有效途径之一。光催化作为一种可以直接利用太阳光的技术最近引起人们的关注。光催化可以用于许多环境处理与能源再生过程,其中光催化降解技术由于其无污染、能耗低等特性备受科研工作者的关注。近年来,铋系光催化剂被广泛用于环境光催化领域,其中碳酸氧铋由于具有层状结构、稳定性
罗兴亚人是生活在缅甸若开邦的一支穆斯林族群,但该族群被缅甸政府视作孟加拉国非法移民,拒绝承认罗兴亚人的缅甸公民身份,由此引发罗兴亚人与政府的对抗呈现一种螺旋式的上
对于野外探险、科学考察和单兵作战等场合,清洁的淡水资源是保证生命安全的必备条件,因此便携式取水装置成为应急取水的一种重要方式。大气中蕴含丰富的淡水资源,如何从大气中提取水成为目前研究的热门课题。从空气中提取水分的方式除了冷却结露技术,还有依靠特殊材料吸湿特性的解吸附技术和收集雾滴的集雾取水技术。但上述空气取水技术都存在限制其快速发展的棘手问题,如吸附技术材料吸附效率的问题,集雾技术推广的地域限制问