论文部分内容阅读
几十年来,蛋白质组学的应用已经跨越了生物医学和生物化学研究的不同领域,体液也成为重要的研究目标。蛋白质在体液中的异常表达与许多疾病密切相关,是理想的疾病潜在生物标志物。利用体液中的蛋白进行疾病的早期检测,被认为是一种替代手术的无创诊断方法,在临床应用中具有重要意义。现代蛋白质组学工具为入体液蛋白研究积累了大量的成果,在人体主要体液中已检测到超过15,000种不同的蛋白质。与此同时,一些公开的体液相关的蛋白质数据库也相继出现,加速了入体液分泌蛋白的研究。然而,这些数据库大都基于单一体液开发,缺少将已发表的入体液蛋白统一汇总的资源库。此外,由于蛋白质的复杂性以及生物实验的高成本,大规模蛋白质鉴定仍然面临着挑战。为此,利用统计和机器学习方法对入体液分泌蛋白预测成为一种辅助手段。在过去的十年中,运用支持向量机(Support Vector Machine,SVM)、排序(Ranking)、蛋白–蛋白相互作用网络(Protein-Protein Network,PPI)对入体液分泌蛋白预测上取得了初步成功。随着数据样本的日益丰富,深度学习(Deep Learning,DL)处理大型数据集的能力逐渐得到关注。与此同时,高性能计算机硬件的发展,也为数值密集型计算提供了技术支持。用深度学习代替传统的机器学习预测入体液分泌蛋白,是一种新的研究思路,值得深入研究。为此,本文在入体液蛋白的数据搜集与分析基础上,提出了基于蛋白质通用特征的入血液分泌蛋白预测模型,通过对该模型不断优化,进而提出了基于蛋白质序列特征的入12种体液蛋白预测模型。主要研究内容如下:1.对入体液分泌蛋白数据的搜集与分析。蛋白质组学技术的早期成功为不同体液积累了大量被鉴定的蛋白质,其中富含潜在的生物标志物。对已报道的不同体液中鉴定的蛋白质进行资源整合和分析,将为入体液分泌蛋白研究提供重要的科学依据。然而,尽管有少量的特定数据资源,目前仍然缺少将已发表的入体液蛋白汇总的资源库。本文首先对医学领域常用的17种体液中被报道的蛋白质进行搜集及处理,并在此基础上对数据进行整理和分析。其次,提出了蛋白质入体液的置信度评价方法,应用蛋白检测的丰度信息和蛋白鉴定方法作为评价依据。最后,将研究成果形成资源库在线发布实现资源共享。本文总计搜集了241篇文献报道的146,018个蛋白质,共计15,480个非冗余蛋白质,同时提供免费的在线查询平台:https://bmbl.bmi.osumc.edu/HBFP/。2.提出了基于蛋白质通用特征的入血液蛋白预测方法。血液是一种重要的临床标本,在疾病诊断和治疗监测中具有重要的作用。传统的机器学习方法在早期蛋白质样本量较小的前提下取得了相对较好的预测效果。然而,随着数据样本的日益丰富,对模型的计算能力提出了更高要求。深度学习在生物医学领域取得的巨大成功,已经证实了其在处理大型数据集方面的优势。本文利用深度神经网络(Deep Neural Networks,DNN)搭建基于蛋白质通用特征的入血液分泌蛋白预测模型。为了提高模型的计算效果,使用t检验(t-test)、错误发现率(False Discovery Rate,FDR)和递归特性消除(Recursive Feature Elimination,RFE)方法进行特征选择。模型在训练集、验证集和测试集的平均曲线下面积(Area Under Curve,AUC)分别为90.43%、89.83%和87.86%。结果证明,基于DNN的模型能够为入血液蛋白质预测提供一种新的可信度较高的方法。这一研究结果为入体液分泌蛋白的预测方法带来了新的研究思路。3.提出了基于蛋白质序列特征的入12种体液分泌蛋白预测方法—DeepSec。尽管蛋白质通用特征在入体液蛋白预测中被广泛使用,但由于缺乏特征与体液关联度的认知,导致特征搜集是盲目的。此外,特征选择的结果仍然需要人工干预。蛋白质序列的组成作为蛋白质独有的特征,已在蛋白质预测的其他应用中取得了显著的成绩。本方法采用一种全新的策略,对已搜集的蛋白质数量超过1000的12种体液的蛋白分泌情况进行预测。以蛋白质序列位置特异性评分矩阵(protein sequence position-specific scoring matrix,PSSM)作为输入,使用卷积神经网络(Convolutional Neural Network,CNN)学习抽象的序列特征,双向门控回归单元(Bidirectional Gated Recurrent Unit,BGRU)和全连接层进行蛋白质的分类,实现了端到端的预测模型。DeepSec在12种体液中的AUC结果为0.850.94(最高为入血液)。该结果表明,DeepSec比当前所有的入体液蛋白预测方法具有更好的预测能力,特别是入血液蛋白预测。此外,将DeepSec应用于人体癌症组学数据库(The Cancer Genome Atlas,TCGA)中肾癌潜在生物标志物的预测,成功预测了104个潜在的血液中肾癌生物标志物。DeepSec在线访问平台为https://bmbl.bmi.osumc.edu/deepsec/。本文对人体入体液蛋白的研究发展进行全面的背景研究,通过搜集及分析不同体液中的蛋白及其丰度信息,提出了蛋白入体液的置信度评价方法,为临床蛋白质组学和生物标志物的发现提供科学依据;提出基于深度学习技术的入体液分泌蛋白的预测模型,为入体液蛋白质组预测提供了高置信度的方法,为入体液蛋白质组学的研究提供了重要的辅助参考,具有广泛的应用前景。