论文部分内容阅读
作为真核生物细胞中最常见的蛋白质翻译后修饰形式之一,可逆的磷酸化过程被形象地描述为生命活动的分子开关,几乎调节着包括细胞生长、发育、分化、凋亡在内的所有生命活动。探索磷酸化修饰的生物机理及其对生命活动的影响具有重要的研究意义。
随着科学技术的发展,磷酸化研究取得了较快地进步。目前,实验已鉴定出大量的磷酸化位点,为我们对磷酸化机制的理解打下了基础。然而,现有的磷酸化数据库中激酶信息匮乏,这束缚了对磷酸化的进一步研究。本文针对这种研究现状,尝试利用生物信息学的方法为实验鉴定出的磷酸化位点识别其对应的激酶信息,从而缓解目前激酶信息严重不足的现状。以此问题为着眼点,主要在以下几个方面进行了富有成效地研究:
(1)从实验验证的磷酸化数据库Phospho.ELM中提取包含激酶信息的磷酸化数据。利用生物信息学工具,完成蛋白质和激酶名称的统一化,同时根据激酶的聚类规则,构建用于激酶识别的正、反例数据集,并对相关数据集进行在线发布,以方便相关研究的进行。
(2)从现有的生物数据库中收集并整理影响磷酸化过程的生物特征,包括基因本体特征和蛋白质-蛋白质相互作用特征,同时使用优化的编码方式对磷酸化位点周围的序列信息进行编码,进而构建磷酸化研究的特征集合。
(3)深度调研磷酸化研究领域已有的生物信息学工作,为后期激酶信息识别算法的提出打好基础。基于最大相关性最小冗余性的特征选择策略,筛选出激酶特异性的特征集合。并在此基础上,利用支持向量机发展专用于已知磷酸化位点激酶信息识别的生物信息学算法。使用留一法对激酶识别模型进行性能评估,发现该系统在假阳性率低于1%的高置信水平下,仍能保持较高的阳性数据检测水平。从与常用的激酶特异性的磷酸化位点预测算法和位点工具的比较结果可以看出发展激酶识别系统的意义和必要性。
(4)为方便国际同行使用激酶识别算法,开发了相关的识别网站和数据库,从而为相关的生物、医学研究工作提供指导和帮助。
本文的研究工作得到了国家自然科学基金(61101061,31100955),高等学校博士学科点专项科研基金(20113402120028)资助。