【摘 要】
:
精准地预测和识别生物标志物对于预警疾病的发生,预测疾病的发展和研究疾病发生发展的内在原因具有重要意义。在现代医疗过程中,从唾液、血液或其他体液中识别生物标志物已成为诊断疾病的有效方法。随着蛋白质组学技术的发展,组成成分相对简单,且可以快捷无创获取到的唾液逐渐成为从标志物的角度进行疾病检测的重要研究目标之一。同时,作为维持人体代谢循环的重要体液,血液中包含的大量生理信号使其受到从事生物标志物研究的科
论文部分内容阅读
精准地预测和识别生物标志物对于预警疾病的发生,预测疾病的发展和研究疾病发生发展的内在原因具有重要意义。在现代医疗过程中,从唾液、血液或其他体液中识别生物标志物已成为诊断疾病的有效方法。随着蛋白质组学技术的发展,组成成分相对简单,且可以快捷无创获取到的唾液逐渐成为从标志物的角度进行疾病检测的重要研究目标之一。同时,作为维持人体代谢循环的重要体液,血液中包含的大量生理信号使其受到从事生物标志物研究的科研工作者的青睐,已经出现众多优秀的研究成果。现有的分泌蛋白预测方法主要基于传统的机器学习技术,而且在构造分类器时高度依赖于数据的特征集。因此,特征选择的偏差可能对最终的整体预测结果产生负面影响。相比传统的机器学习方法,深度学习方法可以直接使用原始数据作为模型的输入,能够自适应地学习到更好的特征表示,从而避免特征选择偏差带来的影响。在本文中,我们以唾液分泌蛋白和血液分泌蛋白预测作为研究对象,利用深度学习方法对唾液和血液分泌蛋白进行预测。在唾液分泌蛋白的预测研究中,我们提出了一种基于多通道胶囊网络的深度学习模型。首先,使用基于特定位置迭代的局部比对搜索工具(PSI-BLAST)将输入的蛋白质序列转换为进化图谱矩阵。之后,将训练集中蛋白质的进化图谱矩阵作为输入对模型进行训练。为了解决训练过程中数据集不平衡的问题,我们使用了基于Bagging的集成学习方法。所提出的模型在训练集上进行10倍交叉验证和在独立测试集进行测试,分别得到了0.905和0.888的准确率,均超过了现有的基于传统机器学习的方法。进一步同实验验证的唾液分泌蛋白进行比较,我们所提出的模型能够达到89%的真阳性率。同已有的癌症唾液蛋白生物标志物进行比较,我们所提出的模型能够达到88%的平均真阳性率。在血液分泌蛋白的预测研究中,我们提出了一种新颖的深度学习模型,通过整合二元分类网络和排名网络来预测血液分泌蛋白。在训练过程中二元分类网络和排名网络上分别使用描述性损失和紧致度损失进行优化。对于二元分类,所提出的模型在训练集上进行10倍交叉验证和在独立测试集进行测试,分别得到了0.915和0.917的准确率,均超过了现有的基于传统机器学习的方法和用于生物序列分析的其他深度学习方法。进一步同实验验证的血液分泌蛋白进行比较,我们所提出的模型能够达到89.5%的真阳性率。同已有的大肠癌和肺癌血液蛋白生物标志物进行比较,我们所提出的模型分别能够达到87.8%和85.8%的平均真阳性率。本文的主要贡献如下:(1)提出了一种基于多通道胶囊网络(Caps Net)的基础分类网络,并以此为基础分别搭建针对唾液分泌蛋白和血液分泌蛋白的端到端深度学习模型,优于现有的传统机器学习算法和其他最新的深度学习架构的预测效果;(2)所提出的分泌蛋白预测模型仅使用氨基酸序列,克服了现有方法对于注释的蛋白特征的高度依赖;(3)与实验验证的唾液和血液中癌症生物标志物相比较,我们的模型所预测的分泌蛋白具有显著的统计学意义。
其他文献
地球化学勘查是利用地球化学数据和地球化学原理来研究某一地区地表或者地下情况的,但地球化学数据的收集非常的耗费人力与物力,尤其是在一些自然环境恶劣的情况下采集样品,其后还需对采集的样品进行分析,过程也非常的繁琐。遥感地球化学结合了地球化学方法与遥感技术的长处,既有遥感获取数据时间空间上的优点,又结合了化学元素分布规律;因此本文构建了一种遥感地球化学反演模型。由于遥感数据存在数据量大且冗余数据过多,呈
交通标志可以使驾驶员快速地感知道路交通信息,并有效降低交通事故的发生概率。交通标志通常都会被设计为显眼的颜色,但天气、光照等条件的不同使得驾驶员在较复杂的自然场景下很难去集中注意力分辨出每个交通标志的类别。此外,汽车上的行车摄像机需要在高速行驶中捕捉到交通标志的影像,而绝大多数情况下行车摄像机所记录的交通标志影像对于整张图像属于十分微小的目标,对于它的定位及识别面临着巨大的困难。因此,如何在自然场
当前信息时代的不断发展,传统的编辑出版行业也面临着巨大的挑战和变化。在期刊编辑工作中广泛运用网络技术,已经成为了一种新型的传媒形式,这样的传媒方式与传统的期刊传媒方式相比,具有很大的优势,并且更加便捷。在新媒体的大环境下,不仅要对一些优秀的传统编辑思路进行传承,更要在此基础上有一定的创新。本文分析了新媒体与传统期刊的优劣势以及在新媒体环境下传统期刊编辑工作面临的挑战,然后从多个方面对新媒体环境下传
新疆东天山觉罗塔格成矿带位于西伯利亚板块与塔里木板块的聚合地区,其中的阿奇山铅锌矿位于新疆吐鲁番地区鄯善县东南方向,大地构造位置位于东天山觉罗塔格成矿带阿奇山-雅满苏岛弧火山带。自2013年发现以来学者们对矿床地质特征、地球化学特征以及矿区周围的花岗岩年龄等进行了探讨。本文在对阿奇山铅锌矿床地质特征研究的基础上,采用电子探针成分分析和原位LA–ICP–MS微量元素分析方法对与成矿关系密切的石榴子石
古利库金矿床位于黑龙江北部,地处兴蒙造山带东端,兴安地块北东部,成矿区划属嫩江古生代、中生代Mo、Au、Cu、Pb、Zn(Ag)成矿带。作者在系统收集整理前人研究成果的基础上,通过野外调查和室内测试分析,对该矿床的成矿地质背景、矿化地质特征、成矿岩浆岩特征、矿石稳定同位素组成、流体包裹体特征等开展了系统研究,确定其为浅成低温热液型矿床成因。论文研究取得如下认识及成果:古利库金矿床的金矿化表现为含碳
钴作为稀贵金属,是我国重要的战略矿种之一。西秦岭地区是我国钴矿集中发育地区,钴主要作为伴生矿产,产于铜多金属矿床中。近年来在矿产勘查过程中,发现喜集、张坪等具有工业价值的钴矿床,表明研究区具有钴矿找矿潜力。作者通过参加“甘肃西秦岭钴金综合信息预测及大桥金锑矿田构造解析”及“钴矿成矿规律总结与典型矿床研究”课题研究,以喜集钴多金属矿为重点,总结了成矿地质特征、成矿地质条件及找矿标志,开展区域及矿区钴
翠宏山铁铜多金属矿床位于小兴安岭-张广才岭成矿带,是上世纪60年代在中国东北小兴安岭地区发现并勘探出的与中生代岩浆侵位作用有关的大型矽卡岩矿床,该矿床自发现以来吸引了众多学者对其成矿作用以及矿床成因等问题的关注与研究。本文在前人研究的基础上,对该矿床的矿床地质特征、流体地质学、成岩成矿年代学以及同位素地球化学等进行综合分析,研究结果揭示:(1)矿区内出露的侵入体主要有早古生代黑云母花岗岩和正长花岗
自二十一世纪以来,全球常规能源巨大的消耗带来了明显的供需紧张问题,但技术的进步使得非常规油气领域取得了一定的进展,未来预计可以有效地来缓解常规资源紧张的问题。在非常规资源中,油页岩近年来更是备受关注。油页岩可通过高温加热促使其中的干酪根分解产生油页岩油。以往采用的地表干馏的方法需要将油页岩开采出来,在地面进行高温干馏和进一步的加工,但是该方法仅可用于浅层易开采的油页岩层,且干馏产生的废气等对环境有
问答系统能够满足人们想要快速、准确地获取信息的需求。虽然目前学者们对问答系统的研究已经取得了很大进步,但仍然存在一些问题。目前大多数的问答系统都是基于问题与问题之间的相似度,或者问题与答案之间的相似度,当用户提出的问题超出系统的训练语料库的范围时,会导致算法预测答案的准确度下降。为了解决这一问题,本文将知识图谱的信息应用于问答系统中以扩展问答系统的范围。同时,为了更好的利用和学习知识库的信息,本文
随着计算机技术的蓬勃发展和应用,数字图像数据已成为人们最常使用的数据载体之一,与人们的生活息息相关。在数字图像处理领域中,图像降噪作为一个重要技术组成部分一直是人们研究的重点。近年来,深度卷积网络在图像处理领域取得的成功,使其在图像去噪任务中的应用也引起了研究人员的广泛关注,现已成为图像去噪的主流方法。在众多基于深度卷积网络的去噪模型中,Dn CNN去噪模型对于图像噪声的去除效果较好,但是仍然存在