基于数据分析的入体液分泌蛋白预测研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:lhm0510
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
几十年来,蛋白质组学的应用已经跨越了生物医学和生物化学研究的不同领域,体液也成为重要的研究目标。蛋白质在体液中的异常表达与许多疾病密切相关,是理想的疾病潜在生物标志物。利用体液中的蛋白进行疾病的早期检测,被认为是一种替代手术的无创诊断方法,在临床应用中具有重要意义。现代蛋白质组学工具为入体液蛋白研究积累了大量的成果,在人体主要体液中已检测到超过15,000种不同的蛋白质。与此同时,一些公开的体液相关的蛋白质数据库也相继出现,加速了入体液分泌蛋白的研究。然而,这些数据库大都基于单一体液开发,缺少将已发表的入体液蛋白统一汇总的资源库。此外,由于蛋白质的复杂性以及生物实验的高成本,大规模蛋白质鉴定仍然面临着挑战。为此,利用统计和机器学习方法对入体液分泌蛋白预测成为一种辅助手段。在过去的十年中,运用支持向量机(Support Vector Machine,SVM)、排序(Ranking)、蛋白–蛋白相互作用网络(Protein-Protein Network,PPI)对入体液分泌蛋白预测上取得了初步成功。随着数据样本的日益丰富,深度学习(Deep Learning,DL)处理大型数据集的能力逐渐得到关注。与此同时,高性能计算机硬件的发展,也为数值密集型计算提供了技术支持。用深度学习代替传统的机器学习预测入体液分泌蛋白,是一种新的研究思路,值得深入研究。为此,本文在入体液蛋白的数据搜集与分析基础上,提出了基于蛋白质通用特征的入血液分泌蛋白预测模型,通过对该模型不断优化,进而提出了基于蛋白质序列特征的入12种体液蛋白预测模型。主要研究内容如下:1.对入体液分泌蛋白数据的搜集与分析。蛋白质组学技术的早期成功为不同体液积累了大量被鉴定的蛋白质,其中富含潜在的生物标志物。对已报道的不同体液中鉴定的蛋白质进行资源整合和分析,将为入体液分泌蛋白研究提供重要的科学依据。然而,尽管有少量的特定数据资源,目前仍然缺少将已发表的入体液蛋白汇总的资源库。本文首先对医学领域常用的17种体液中被报道的蛋白质进行搜集及处理,并在此基础上对数据进行整理和分析。其次,提出了蛋白质入体液的置信度评价方法,应用蛋白检测的丰度信息和蛋白鉴定方法作为评价依据。最后,将研究成果形成资源库在线发布实现资源共享。本文总计搜集了241篇文献报道的146,018个蛋白质,共计15,480个非冗余蛋白质,同时提供免费的在线查询平台:https://bmbl.bmi.osumc.edu/HBFP/。2.提出了基于蛋白质通用特征的入血液蛋白预测方法。血液是一种重要的临床标本,在疾病诊断和治疗监测中具有重要的作用。传统的机器学习方法在早期蛋白质样本量较小的前提下取得了相对较好的预测效果。然而,随着数据样本的日益丰富,对模型的计算能力提出了更高要求。深度学习在生物医学领域取得的巨大成功,已经证实了其在处理大型数据集方面的优势。本文利用深度神经网络(Deep Neural Networks,DNN)搭建基于蛋白质通用特征的入血液分泌蛋白预测模型。为了提高模型的计算效果,使用t检验(t-test)、错误发现率(False Discovery Rate,FDR)和递归特性消除(Recursive Feature Elimination,RFE)方法进行特征选择。模型在训练集、验证集和测试集的平均曲线下面积(Area Under Curve,AUC)分别为90.43%、89.83%和87.86%。结果证明,基于DNN的模型能够为入血液蛋白质预测提供一种新的可信度较高的方法。这一研究结果为入体液分泌蛋白的预测方法带来了新的研究思路。3.提出了基于蛋白质序列特征的入12种体液分泌蛋白预测方法—DeepSec。尽管蛋白质通用特征在入体液蛋白预测中被广泛使用,但由于缺乏特征与体液关联度的认知,导致特征搜集是盲目的。此外,特征选择的结果仍然需要人工干预。蛋白质序列的组成作为蛋白质独有的特征,已在蛋白质预测的其他应用中取得了显著的成绩。本方法采用一种全新的策略,对已搜集的蛋白质数量超过1000的12种体液的蛋白分泌情况进行预测。以蛋白质序列位置特异性评分矩阵(protein sequence position-specific scoring matrix,PSSM)作为输入,使用卷积神经网络(Convolutional Neural Network,CNN)学习抽象的序列特征,双向门控回归单元(Bidirectional Gated Recurrent Unit,BGRU)和全连接层进行蛋白质的分类,实现了端到端的预测模型。DeepSec在12种体液中的AUC结果为0.850.94(最高为入血液)。该结果表明,DeepSec比当前所有的入体液蛋白预测方法具有更好的预测能力,特别是入血液蛋白预测。此外,将DeepSec应用于人体癌症组学数据库(The Cancer Genome Atlas,TCGA)中肾癌潜在生物标志物的预测,成功预测了104个潜在的血液中肾癌生物标志物。DeepSec在线访问平台为https://bmbl.bmi.osumc.edu/deepsec/。本文对人体入体液蛋白的研究发展进行全面的背景研究,通过搜集及分析不同体液中的蛋白及其丰度信息,提出了蛋白入体液的置信度评价方法,为临床蛋白质组学和生物标志物的发现提供科学依据;提出基于深度学习技术的入体液分泌蛋白的预测模型,为入体液蛋白质组预测提供了高置信度的方法,为入体液蛋白质组学的研究提供了重要的辅助参考,具有广泛的应用前景。
其他文献
致病性细菌在材料表面粘附引发的医疗器械感染问题,给人类生命健康安全带来严峻挑战。抗生素作为现代医学重要的成果之一,它的发现和应用为对抗细菌感染问题提供了有力保障,然而以抗生素为代表的多种生化抗菌剂过量使用,直接诱发了多重耐药性细菌的产生,已经成为了临床领域新威胁。作为一种可替代方法,生物启发的纳米结构杀菌表面展现了优良的抗菌性能。不同于传统生化杀菌方式,该类型纳米结构杀菌表面则是通过微纳结构对细菌
癫痫是一种常见的慢性神经系统疾病,目前药物治疗是控制癫痫的主要手段。丙戊酸(VPA)是一种广泛应用于临床的广谱抗癫痫药,对各类癫痫及痉挛的发作疗效显著,同时还可以用作双向情感障碍的治疗。虽然VPA的有效性和安全性已经得到了临床的广泛验证,但是仍存在一些不良反应,其中以肝毒性最为严重。在长期接受VPA治疗的患者中有61%会发展成为非酒精性脂肪肝(NAFLD),如不及时干预,NAFLD将进一步发展为非
《廣雅》爲三國魏張揖所撰,該書體例比附《爾雅》,是《爾雅》之後又一部解釋詞義的訓詁之作。清王念孫《廣雅疏證》即疏證《廣雅》的集大成之作,該書根據“因聲求義”理論指出、繫聯大量具有音同、音近、音通、音轉等通假關係的字組,並據此校訂相關傳世文獻,多有發明,猶爲後人奉爲圭臬。歷來對於王氏“因聲求義”理論和實踐的研究並不全面,對《疏證》中具有通假關係的材料也未能窮盡地整理、證實與檢討。本文選取《疏證》(含
本文第一章,说明本文研究的时空范围,明确研究对象,梳理相关学术简史,介绍研究方法,提出研究目标。本文第二至七章,主要是黑龙江流域诸区域新石器文化的编年序列研究。首先根据自然地理条件和文化传统,将黑龙江流域区分为嫩江流域、西流松花江流域、海拉尔河流域、黑龙江中游地区、乌苏里江-黑龙江下游地区、兴凯湖平原及邻近地区等六个区域;其次对各区域新石器文化的性质与内涵、分期与年代进行讨论,进而建立了各区域诸考
肿瘤严重威胁人类健康,是导致全球死亡人数最多的疾病。但临床上,在肿瘤筛查、评估及治疗等方面仍存在诸多困境。随着纳米技术的发展,纳米材料以其固有的优势克服了传统肿瘤诊断和治疗方法的不足。铁基纳米粒子是一类具有代表性的磁性纳米粒子,根据肿瘤微环境的特点及治疗需求,对其进行修饰,合成多功能铁基纳米粒子,从而达到更好的诊疗效果,是目前的研究热点之一,并在肿瘤诊疗领域显示出良好的应用前景。本文针对肿瘤成像、
在肿瘤诊疗研究中,聚合物纳米粒子因其高生物相容性、低生物毒性、高胶体稳定性和结构稳定性,受到了研究者们的广泛关注。同时,聚合物纳米粒子中丰富的官能团能够为更多功能基元的负载、掺杂或修饰提供可能,有利于构筑多功能纳米复合材料,这正是聚合物基纳米诊疗试剂的发展方向。提高纳米材料的诊疗性能,一是要提高纳米粒子向肿瘤中的富集,二是要增强纳米粒子在肿瘤中的滞留和细胞内化,三是要充分利用肿瘤自身特性,利用纳米
通过活性氧(ROS)的积累增加细胞内氧化应激引起肿瘤细胞凋亡或坏死是一种新兴的癌症治疗方式。由于肿瘤微环境反应的高度特异性和非侵袭性,引起了广泛的研究兴趣。实际上,很多精心设计的纳米材料具有类酶属性,如铁基纳米材料、碳基纳米材料、金属有机框架(MOFs)材料和贵金属纳米粒子等,常被作为ROS发生器,用于纳米催化肿瘤治疗,尤其是基于纳米材料过氧化物模拟酶活性催化分解肿瘤细胞内过表达的H2O2生成细胞
癌症严重威胁人类的健康,是全世界最常见的死亡原因之一。尽管现有的抗肿瘤疗法取得了一定的成效,但基于化疗药物和放射治疗的标准抗肿瘤疗法仍存在潜在的副作用。近年来,一些研究表明极低频、低强度的磁场对正常的细胞无害,甚至可能是有益的,而这类磁场会对某些恶性肿瘤产生一定影响。极低频磁场(<300Hz)已被证实能够参与调控肿瘤细胞周期分布、凋亡、自噬、分化、系统免疫等过程,且能通过多种信号通路抑制血管生成和
近年来,基于纳米材料的胰腺癌治疗得到了广泛关注和迅速发展。主要挑战包括:诊断和治疗结合差、难以根治、抗肿瘤疗效不理想和转移复发风险大等。另外,利用肿瘤微环境(Tumor microenvironment,TME)缺氧、微酸性和高过氧化氢(H2O2)等特点,开发简单有效的策略来构建具有TME刺激响应的多功能纳米平台展现出较大的优势。研究表明,纳米诊疗剂的成像及治疗效果受组成、电荷及形貌粒径等的影响较
生物入侵是导致生物多样性丧失的第二大因素,掌握入侵机制可提高外来入侵物种防控管理能力。表型可塑性被认为是外来植物成功入侵的重要机制之一,具有确定的遗传基础。近30年来表型可塑性的研究发展迅猛,野外调查与移植实验相结合,宏观生态与分子生态交叉等多种方法被用来探索外来植物成功入侵的表型可塑性机制。本文从表型可塑性概念、研究发展历程及其在外来植物入侵中的作用等方面进行了综述,并对今后外来入侵植物表型可塑