论文部分内容阅读
突变在生物学上的含义,是指DNA序列发生的改变,它包括单个或多个碱基的替换、缺失、重复和插入等。突变大体上分为自然突变和人工突变(包括随机突变和定点突变)。经典遗传学从自然突变或随机突变实验的突变体结果(如表型)出发,研究其基因型;而建立在大规模基因组测序基础上的现代遗传学可以通过定点突变实验研究基因、DNA作用元件、RNA和蛋白质的结构、功能或其他性质。突变实验,无论是在生物学基础研究中(如探讨蛋白质结构-功能关系,确定DNA-蛋白质相互作用位点等)还是在应用领域(如药物研发、基因治疗等)都具有不可替代的重要作用。突变实验积累的大量数据产生了一些突变数据库,使生物学家可以应用生物信息学的方法去系统地研究突变问题。但是这些数据库的异种性增加了突变数据提交、交换和使用的困难。人类变异组计划试图提供统一的、标准的、高质量突变数据,由此引出了现有突变数据库的整合与标准化问题。基于突变数据库的数据挖掘和知识发现是人类变异组计划的另一项主要内容,其中最大的一类问题围绕蛋白质单点替换突变效果预测展开。点突变效果的预测结果可以直接指导实验。同时,该研究也为进一步研究其他相关生物学问题奠定基础,如蛋白质功能的研究。本论文中记录的研究工作总体上分为两个部分。在第一部分(第二章)中,首先介绍了人类变异组计划及其进展,而后探讨了突变数据库整合和标准化的几个问题,最后提出了层次实体关系图(HERG)模型。HERG模型不仅可以对发布的分子生物学数据库进行可视化描述,还可以发展成为一个统一框架中的基本模型来标准化异种的生物数据库。在第二部分(第三章)中,为改进蛋白质单点替换突变效果的预测,提出了一种基于打分矩阵核函数的支持向量机算法,并通过和基于经典内核的支持向量机算法在来自于PMD (Protein Mutant Database)数据库的大数据集上的比较,显示了该算法的优越性。最后,本文还尝试从信息论角度探讨了打分矩阵核函数的意义。