论文部分内容阅读
固有无序蛋白(IDPs,Intrinsic Disordered Proteins)是近些年发现的一类普遍存在且缺乏稳定三维结构的天然蛋白,在多种生理与病理过程中行使重要的生物学功能。由于结构柔性大,实验研究IDPs难度很大。目前IDPs的许多生物机理还不清楚,基于生物信息学方法发展IDPs预测分析算法为IDPs的研究提供了重要研究工具。自固有无序蛋白被发现以来,研究人员发展了多个IDPs预测算法,然而多数预测算法效率不高,不同预测算法之间的预测结果具有很大差异,还需要更加全面、深入挖掘IDPs固有序列结构特征。已有的IDPs预测算法都是基于蛋白质序列特征构建而成,因此为了揭示IDPs更深层次序列结构特征,本文系统研究了IDPs中有序区和无序区对应在DNA序列层次的差异特征,在此基础上发展了IDPs有序区/无序区预测分类算法,为今后IDPs预测提供了新思路,论文主要工作如下。1.基于DNA水平的IDPs有序区/无序区序列特征分析以最新版本的IDPs数据库Dis Prot 6.02中的注释信息为基础,本文首先从EMBL核酸数据库获取了IDPs对应原始基因组中的DNA序列,经过去冗余等环节,最终构建了包含1063条有序区和499条无序区数据集。基于该数据集,本文借助序列分析CGR(Chaos Game Representation)模型、密码子偏好分析等方法,深入研究了有序区和无序区序列的特征差异,结果表明有序区和无序区在单碱基、二联体核苷酸、密码子使用等方面存在不同程度的差异,具有一定的偏好性。进一步分析表明无序区有更宽的密码子使用范围,密码子用法差异较大,具有相似密码子用法的基因数量少,而有序区密码子用法相似。对密码子各位点GC相对含量、嘌呤与嘧啶的含量差分析结果表明有序区和无序区存在一定的特征差异。无序区G+C含量差异较大,无序区密码子第三位位点偏好使用嘌呤而有序区偏好使用嘧啶。此外,本文对有序区和无序区连接位点区域的序列特征进行了比较分析,结果发现无序区具有相对保守的序列特征。因此,上述研究表明了IDPs有序区和无序区在DNA层次展现了不同程度的序列特征,为IDPs预测奠定了理论基础。2.融合蛋白质及DNA序列特征的IDPs有序区/无序区分类方法为了能够定量刻画IDPs有序区和无序区的差异特征,本文分别选取了三种特征参数作为IDPs分类算法的输入参数:第一种特征对应DNA序列单碱基、二联体核苷酸、三联体核苷酸使用频率;第二种特征引入了基于TN曲线和Z曲线提出的75个特征参数来描述三联体核苷酸的组成及排列信息;第三种特征选取了IDPs预测算法中常用的20种氨基酸、400种二肽的使用频率作为特征参数。然后,结合支持向量机,发展了IDPs有序区/无序区的分类预测算法。通过对不同数据集的预测结果表明,基于TN曲线和Z曲线得到的75个特征参数能够很好地展现有序区/无序区差异特征,进一步融蛋白质序列特征和DNA序列特征能够有效提升IDPs预测效率,因此本文可为今后IDPs预测及相关研究提供新思路。