基于序列信息的蛋白质功能位点预测的算法开发

被引量 : 0次 | 上传用户:wrdyh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质功能位点的识别对深入理解蛋白质的生物学功能具有重要的意义,应用各种计算方法对蛋白质功能位点进行预测是生物信息学中的一个重要课题。本文中,作者开展了两种蛋白功能位点(泛素化位点和锌离子结合位点)的预测研究。首先,作者根据酵母和人类中泛素化位点的序列特征,先后开发了分别针对酵母和人类泛素化位点的预测工具CKSAAP_UbSite和hCKSAAP_UbSite。然后,基于四个物种的数据集,作者对现有的泛素化位点预测工具的性能进行了系统的评价。最后,通过对蛋白质锌离子结合位点的序列特征进行分析,并整合多种预测方法和特征开发了一个基于序列信息的锌离子结合位点预测的新工具。作为一种重要的可逆的蛋白质翻译后修饰位点,蛋白质泛素化涉及众多的生物学过程并且与多种疾病紧密相连。对泛素化位点的识别是进一步了解泛素化相关生物学过程和分子机制的第一步,也是比较重要的一步。因此,作者根据酵母中泛素化位点周围的序列特征开发了一个名为CKSAAP_UbSite的酵母特异的泛素化位点预测工具。在CKSAAP_UbSite中,首次将CKSAAP编码应用到泛素化位点预测当中,并使用支持向量机建立预测模型。为了方便学术界使用,建立了一个在线服务器(http://protein.cau.edu.cn/cksaap_ubsite/)和开发相关软件来执行CKSAAP_UbSite算法。另外,CKSAAP_UbSite也可以被用来预测整个蛋白质组的泛素化位点。随着基于质谱手段的蛋白质组学技术的发展,数以万计的人类泛素化位点被实验测定。针对人类泛素化位点周围复杂的序列特征,作者通过整合多种互补的预测方法开发了一个人类特异的泛素化位点预测工具。首先,采用CKSAAP编码并用支持向量机建立一个预测模型。接着,为了进一步对人类泛素化位点周围的序列特征进行挖掘,作者使用支持向量机分别整合正交编码、理化性质编码和蛋白质聚集倾向性编码建立了三个预测模型。最后通过逻辑回归的方法对四个预测模型的结果进行整合建立hCKSAAP_UbSite。hCKSAAP_UbSite在5-折交叉检验(5-fold cross validation)中,其AUC (Area under the ROC curve)能够达到0.770。为了方便用户使用,hCKSAAP_UbSite算法被进一步整合到CKSAAP_UbSite的在线服务器中。近年来,许多泛素化位点预测工具被相继开发出来。但是这些工具之间有很大区别,具体表现在所采用的分类算法不一、所使用的特征不同和数据集来自不同的物种等方面,从而导致用户在选择这些工具时比较困惑。为了解决这一问题,作者搜集了四个不同物种的数据集,对五种工具的预测性能进行了全面比较分析。接着,作者从用户的角度对不同的工具的使用方便性做出了评价,用于指导用户快速高效地选择预测工具。最后,测试了一些常用编码特征对泛素化位点的预测能力,并对这些特征进行排序,从而找出在特定的物种中哪些特征具有较好的预测能力。作为一种重要的微量元素,锌离子与多种生物学过程和疾病紧密相关,锌离子对于蛋白质行使其功能具有重要的作用。由于锌离子重要的生物学功能,作者提出了一个新的基于序列信息的预测方法ZincExplorer来对锌离子结合位点进行预测。ZincExplorer是一个集成的算法,它整合了SVM-based predictor、Cluster-based predictor和Template-based predictor三种预测方法的结果,能够对四种残基(即CYS, HIS, ASP和GLU)进行预测。经过5-fold cross-validation测试,ZincExplorer的AURPC (Area under recall-precision Curve)值能够达到0.851,在Recall等于70%的情况下,其Precision可达到85.6%(Specificity=98.4%, MCC=0.747)。另外,ZincExplorer同时也能够对结合于同一个锌离子的多个残基的相互依赖关系(Interdependent relationships, IRs)进行识别。最后,作者建立了一个在线服务器(http://protein.cau.edu.cn/ZincExplorer/)来执行ZincExplorer算法,方便学术界免费使用。
其他文献
人文社会科学研究的核心终在于人自身的问题,尤以人类学为名的人类学更是如此。但是,在探讨人的问题时,却又不能仅着眼于人本身,若限于此,或许会遗漏一些认识自身的可能。所
Rasmussen脑炎(Rasmussen’s encephalitis,RE)是一种罕见的神经系统慢性疾病,又称为Rasmussen综合征。该病多起源于儿童期,常累及一侧大脑半球,主要以药物难治性癫痫、部分
当前我国进入重工业时期,工业增长进入到重工业主导阶段,城市化达到高潮,资源消耗显著增加.但是,我国国内资源供不应求的供求矛盾日益突出,资源与环境的矛盾日益突出.文章从
本文对比了不同孔挤压强化工艺参数对7085-T7452铝合金锻件的强化效果,用X射线衍射仪测定了孔壁表层的残余应力分布,用扫描电镜观察了疲劳断口的形貌特征,并用透射电镜观察了
金字塔控制结构是当今世界各国企业普遍采用的控制上市公司的方式,我国亦不例外,民营上市公司尤其突出。金字塔控制结构下的控制权与现金流权分离使得上市公司的实际控制人有
海洋桡足类在海洋生态系统的能量流动和物质循环以及生物地球化学循环等过程中是重要的链接环节。胚胎发育是生物个体发生过程中的一个关键环节,直接影响种群的孵化率和幼体
<正> 换元法是数学上一个十分重要的方法。它可应用于各种数学问题,也能取多种多样的形式。下面介绍的“自身变换”的基本思想是: 1.把所给的数学问题整个地用一个未知元来代
血红蛋白是人体血液的重要组成部分,负责将氧气输送到人体各个器官。血红蛋白含量过高或过低都会给人体带来损伤,而血红蛋白疾病遍布人群又极广,尤其是贫血在女性中的病发率,
隐喻的研究有着悠久的历史。从最早的亚里士多德提出的比较说到替代论、互动论,再到从认知科学视角下的概念隐喻学说,古往今来的语言学家们从不同的角度对隐喻进行了研究并尝