论文部分内容阅读
生命科学是研究生命活动规律、生命本质、生命发育规律,以及各种生物之间和生物与环境之间相互关系的科学。进入21世纪后,生命科学蓬勃发展,取得了重大突破。生命科学的广阔应用前景备受瞩目,其不仅有助于揭示生命活动的基本规律,而且为疾病的诊断和治疗提供重要的理论基础。DNA双螺旋结构模型的建立使分子生物学成为生命科学领域的重要分支学科,开创了在分子水平上研究生命现象的新纪元。基因表达是分子生物学的理论基石,是遗传信息从DNA传向蛋白质的过程。基因表达生物学机理的研究为DNA计算的诞生奠定了理论基础。自20世纪以来,分子生物学发展迅速。然而,生物化学实验研究方法的成本相对较高。因此,建立有效的分子生物学系统模型并进行分析和预测,揭示生命过程所蕴含的奥秘,已经成为本领域亟待解决的问题。蛋白质是生命活动的物质基础和最终执行者,直接表征人体的生命现象和生理机能。对蛋白质进行功能预测将有助于在分子、细胞和生物体等多个层次上全面揭示生命现象的本质,为疾病发生机制的探究、药物的研发开辟全新的途径。除此之外,蛋白质功能预测对于食品、农业生产、环境监控等领域具有巨大的推动作用。上世纪80年代以来,基因组测序计划的持续开展累积了海量的蛋白质序列,且其增长速度日益加快。实验测定的蛋白质功能远远落后于新发现的蛋白质序列的增长速度,单纯依靠实验研究已不能满足全基因组范围内对蛋白质功能进行注释的需要。如何缩小已知序列的蛋白质数量和已测定功能的蛋白质数量之间的差距已经成为分子生物学的一个重要研究课题。开发先进高效的计算方法辅助实验技术,建立蛋白质功能的预测模型及在线预测平台,势在必行。虽然分子生物学系统建模和蛋白质功能预测相关研究问题在过去的十多年中取得了很大的进展,但依然存在很大的探索空间。基于基础数学理论和机器学习理论,本学位论文研究了分子生物学系统建模和蛋白质功能预测相关问题,具体研究工作概述如下:(1)目前对于遗传密码的生物学机理、生物特征及生物学意义的研究,已较为深入。然而,受限于遗传密码精确数学模型的缺失,对密码子与其它生命体或生物过程的关系研究很难进一步展开。基于群模型在刻画对称、互补等特性的优势,在复平面上建模了遗传密码,并建立了遗传密码、氨基酸与群元素的对应关系,得到了一些有价值的命题,尤其定义了同一类氨基酸的不同编码密码子之间的函数关系。上述模型将为定量分析和理解基因表达过程提供参考,同时有助于分析基因突变对蛋白质合成的影响,进而揭示复杂生物系统的运行机制。(2)DNA计算具有广阔的应用前景。为降低实验的开销,有必要首先针对DNA计算算法进行计算机仿真,然后再开展相应的DNA计算实验工作。数学模型具有提炼生物学特征、刻画生物学过程、计算生物学系统动态演化过程的潜质。基于元间数学理论,建模了 DNA计算求解哈密尔顿路径问题的实验过程,从数学角度给出了节点的编码规则,得到了适用于求解多节点哈密尔顿路径问题的推广元间模型。上述模型可作为一种求解哈米尔顿路径问题的仿生计算方法,有助于将DNA计算与计算机仿真相结合,为先仿真再实验的DNA计算技术研究方法提供模型基础。(3)细胞外基质蛋白的多样性是细胞外基质在组织形态发生、分化和体内平衡等多个生物过程中发挥调控作用的基础。抗冻蛋白吸附到冰晶的表面并抑制冰晶的生长是越冬生物在严寒环境中生存的前提。蛋白质类别预测是蛋白质功能预测领域的重要研究分支。细胞外基质蛋白的预测将有助于理解相关的生物过程和药物开发。抗冻蛋白的预测将为揭示AFP与冰晶的相互作用机制提供重要线索。现有的细胞外基质蛋白和抗冻蛋白预测系统基于单分类器预测算法,在一定程度上限制了其预测性能。为此,基于集成学习算法,分别构建了细胞外基质蛋白和抗冻蛋白预测系统。实验结果表明,上述预测系统远远优于同类其它方法。(4)高尔基体主要负责蛋白质的存储、包装和分发。高尔基蛋白类型通常分为顺面膜囊蛋白和反面膜囊蛋白,使蛋白质有序的进出高尔基体。高尔基体蛋白的功能障碍会导致营养不良、糖尿病、癌症和其它遗传疾病。正确预测高尔基体蛋白质类型将有助于阐明高尔基体在有关生物学过程的功能,并为理解疾病的发作机制提供重要线索。基于共空间模式(Common Spatial Patterns,CSP)的概念,开发了一种用于区分顺面膜囊蛋白和反面膜囊蛋白的预测模型。实验结果显示,CSP方法的性能稍差于传统方法,特征维数却是传统方法的1/20,极大地降低了计算复杂度。综合考虑预测性能和特征维数,CSP是一种有效的特征提取方法。通过少数类过采样算法,解决了数据集不平衡问题。利用递归搜索的方法排除了冗余的特征,进一步提高了预测性能。通过与现存方法进行比较,证实了该方法的强大预测能力。(5)蛋白质表面与其它生物分子发生相互作用的结合位点,对于蛋白质功能的实现非常重要。蛋白质功能预测的另一重要研究方向是区分结合位点与蛋白质其它表面区域。以黄素腺嘌呤二核苷酸(Flavin Adenine Dinucleotide,FAD)相互作用残基为研究对象,通过多种特征提取策略,构建了蛋白质结合位点预测模型。鉴于邻接残基的相互依赖关系,在提取进化信息时对位置特异性打分矩阵(Position Specific Scoring Matrix,PSSM)进行 了平滑。为进一步深入理解 FAD 相互作用残基(FAD-Interacting Residues,FIRs)形成的机制,对各种类型的特征进行了定量分析。结果表明,所提取的特征对于FIRs和non-FIRs具有较好的区分能力。为降低计算复杂度并提高预测模型的精度,利用特征选择技术有效地选取了最优特征集合,并对最优特征进行了分析,在一定程度上揭示了 FAD与蛋白质发生相互作用的机制。训练集上的交叉验证结果显示,该方法的预测效果明显优于现有其它方法。(6)PSSM广泛应用于蛋白质序列进化信息的提取。现已有很多用于提取蛋白质序列信息的网络服务器,然而,还缺乏利用PSSM提取进化信息的网络服务器,极大地限制了其实际应用价值。基于上述原因,首先把从PSSM进行特征提取的方法划分为3类;然后,基于各类特征提取方法,搭建了用于提取蛋白质序列进化特征的网络服务器—PSSM-PROREP;最后阐明了网络服务器的用法。PSSM-PROREP的设计灵活、可配置、并具人性化。专家用户和非专家用户均可方便的评估这些特征的预测能力,从而选择合适的特征开发鲁棒性较强的预测算法。PSSM-PROREP有望成为蛋白质功能预测领域的有效工具。