论文部分内容阅读
由蛋白激酶催化所发生的磷酸化修饰作用在调节生物的生命活动中起着不可替代的作用,被称为细胞生命活动的开关。有些疾病的发生与由某特定激酶所催化的磷酸化修饰有密切的关系,因此识别磷酸化位点的激酶信息对于研究分子机理具有重要的研究意义,也有助于设计药物。 起初对磷酸化的研究主要依赖实验方法,主要包括32P标记法和高通量的质谱分析方法等。这些实验方法能够产生大量的磷酸化数据,然而大部分数据都缺少激酶信息,而且实验方法费时耗力。于是研究者们开始尝试通过计算学的方法找出磷酸化的规律并对磷酸化数据进行预测。基于计算的方法需要依托于磷酸化数据,通过实验方法产生的磷酸化数据为使用计算学方法提供了条件。如今,通过计算学的方法鉴定蛋白激酶已经成为解决激酶鉴定问题的主流方法。 本文在前人对磷酸化研究的基础上,综合考虑结构风险和数据间的空间分布这两种因素,提出了一种基于核矩阵的激酶鉴定算法SLapRLS,并将其应用于激酶鉴定工作。首先对从Phospho.ELM数据库中提取的人类的磷酸化数据进行处理,先通过遍历搜索找到并去除重复的数据,而后使用BLAST和CD-HIT软件进行去冗余操作,从而构建了可靠的训练数据。然后我们对核函数和基于核函数的机器学习算法进行了研究,并提出了利用专业知识构建核矩阵的方法。最后,引入了标记与相似度的不一致性来反映数据间的空间分布关系,结合标记与相似度的不一致性最小化与结构风险最小化提出了SLapRLS算法。通过10折交叉验证和独立验证法对SLapRLS进行了性能评估,结果表明SLapRLS能够有效的解决激酶鉴定问题。