论文部分内容阅读
分析化学信息学是分析化学的一个重要分支,它是建立在多学科基础上的交叉学科。人类基因组计划的完成积累了大量关于基因序列和蛋白质序列数据,为化学信息学的发展提供了新的机遇并发出新的挑战。本文立足于海量的生物序列数据资源,致力于生物序列特征提取新方法的探索,对生物信息学中的热点问题进行了以下五个方面的研究:
1.运用傅立叶功率谱首次研究了基因中外显子的周期三行为。结果表明:大多数外显子独立存在于基因中时并不具有周期三行为,而当基因被剪切后外显子连在一起编码蛋白质的时候才具有周期三行为。并且这种行为特征与外显子的长度、碱基在密码子三个位置上的分布以及氨基酸密码子的使用偏好均有密切关系,同时符合蛋白质翻译次序的外显子也具有对密码子使用的偏好性。具有周期三行为的编码区更倾向于使用密码子第三位是G/C的密码子。密码子使用的偏好性是蛋白质编码区所特有的性质。这一研究结果对于提高基因识别的准确率以及内含子功能的研究具有重要意义。
2.将分形理论应用于人类基因自相似性研究,运用网格维数刻画了人类基因编码区的分形特征。首次发现基因中整个编码区的分形维数小于单个外显子的维数,表明整个编码序列比单个外显子更有序。通过与随机序列的对比研究确证了此结论,并且外显子的维数与随机序列差不多,表明外显子更倾向于随机分布。结合傅立叶功率谱和编码区的分形特征,我们发现对于那些具有较多外显子的基因,编码序列包含了较少的信息,因此具有较小的维数,一部分的遗传信息可能储存在内含子中。对于那些具有较少外显子的基因,编码序列包含了更多的遗传信息,具有更大的复杂性,因此维数较大。
本文的研究结果对于更好的理解基因序列的复杂性和内含子功能的研究具有一定的理论价值。
3.结合了小波分析在数据挖掘领域的最新研究成果,建立一种生物序列相似性研究的新方法。通过离散小波变换把数字化的蛋白质序列从时域转化到频域,设定阈值分别把各个频域信号转化为字符串序列,根据最大公共子序列定义序列匹配度,并将它作为相似性的测度。综合不同频域层次序列的相似度全面考察生物序列的相似性。通过对蛋白质序列和基因序列的研究,表明基于离散小波变换的生物序列相似性研究方法不仅能够考察不同物种同一家族蛋白质的相似性情况,而且能够考察同一物种相同基因家族中不同成员之间的相似性情况。本文的研究结果为生物序列相似性研究开拓辟了新的研究思路。
4.基于小波包分析提出了一种同源蛋白特征提取的新方法,首次提出将小波包能量作为同源蛋白质的特征向量来研究同源蛋白质序列的进化和变异性。通过对不同物种血红蛋白α链和β链的同源性分析表明,血红蛋白的α比β链更具有保守性。结合两条链的小波包能量谱,结论显示:在猪、牛、马、鸡和鱼等物种中,猪的血红蛋白与人的血红蛋白具有最大的相似性,因此在医学上有望用猪血代替人血来解决血液短缺的问题。对直系同源蛋白和旁系同源蛋白序列的小波包能量谱的研究结果表明,小波包能量可以作为同源蛋白质的特征向量来考察同源序列的遗传和变异性,尤其是对直系同源蛋白具有较好的适应性。由于本方法不需要大量的样本作为训练集,而且属于非参数法,使用简单方便,对于蛋白质的同源研究具有重要理论价值和实践意义。
5.基于小波能量特征向量在蛋白质同源性研究中的作用,提出小波能量谱识别蛋白质活性位点的新方法。运用Autosignal软件选择Morlet复小波对数字化的蛋白质序列进行连续小波变换,小波能量谱可用于蛋白质活性位点的识别。同源蛋白质序列的能量最大值通常分布于相同的频率处,小波能量比较集中的区域往往与蛋白质序列的保守位点相对应,它们通常都是蛋白质的活性位点。本文的研究结果为对蛋白质功能的研究开辟了新途径。
论文中涉及的程序均使用Matlab程序语言编写。本论文系国家自然科学基金和广东省自然科学基金资助项目。