论文部分内容阅读
                            
                            
                                随着生物数据的不断增长,如何从大量的数据中挖掘出有价值的知识是一项极具挑战性且十分有趣的工作,这也促使了数学、计算机科学和生物学的相互交叉融合,从而诞生了一个新兴研究领域——生物信息学。随着蛋白质结构测定技术和高通量测序技术的不断发展,产生了大量的DNA结合蛋白结构数据和序列数据,为计算方法研究DNA结合蛋白的功能奠定了数据基础。DNA结合蛋白分为单链DNA结合蛋白(Single-stranded DNA-binding Proteins, SSBs)和双链DNA结合蛋白(Double-stranded DNA-binding Proteins, DSBs), SSBs主要参与了DNA复制、修复和重组等生物过程,DSBs参与了基因的表达与调控等一系列生命活动。虽然已有一些DSBs和SSBs的研究,但对DSBs和SSBs的结合特异性研究仍然未完全清楚。目前DSBs主要从结构、进化和生物特征角度研究,对SSBs主要通过分子生物学手段研究,仍然缺乏生物信息学手段对DSBs和SSBs的差异特征、结合特异性和结合机制研究,同时计算方法有助于实现快速高效的DNA结合蛋白的功能注释,以缓解蛋白质的数据量庞大与功能信息贫乏的矛盾,并且有助于我们进一步理解蛋白质-DNA相互作用机制。本论文通过构建数学模型,将计算几何和数据挖掘技术相融合展开DNA结合蛋白的功能和预测研究,共包含四个步骤:(一)、数据集的构建:首先进行理论论证,然后对收集的数据分析和整理,获得具有生物学意义和统计意义的可靠数据集;(二)、DNA结合蛋白的结构和序列数据的特征提取:如何从复杂的三维结构数据和序列数据中提取有效的特征参数成为关键环节,也就是如何将内在的空间位置信息和序列字符信息转换为数字特征信息;(三)、分类算法设计:对提取的特征数据,设计合理的分类算法,筛选有助于分类的特征以实现分类目标;(四)、分类性能的评价:对分类性能采用合理公正的评价体系,如测试方法、检验手段和评价指标选择等。全文的研究内容有以下三个方面。1、DSBs和SSBs三维结构全局特征研究从DSBs和SSBs的全局结构出发,通过对蛋白质的结构比对,提取出DNA结合蛋白的OBfold结构域特征,然后通过对通道表面三维结构的测量,获得了表面最大通道特征。经过对获得的特征比较和筛选,最终获得结构相似性分数、最大通道的长度和通道曲率等分类特征。实验对HOLO(绑定DNA)、APO(未绑定DNA)、混合数据和未知蛋白数据进行分类预测和独立验证,取得了较高的分类性能,实现了对未知DNA结合蛋白结构数据的自动化功能分类。2、DSBs和SSBs局部特征结合特异性研究本研究基于蛋白结构的接口局部特征,对DSBs和SSBs的结合特异性进行分析。通过设计空间结构特征提取算法,从蛋白-DNA接口区域提取了保守性残基理化特征、二级结构、接口的空间结构、接口残基空间形态和空间环境残基分布等特征,并且运用离散小波变换方法提取出更精细的特征细节,对蛋白-DNA的结合特异性进行研究。实验通过SVM分类算法和改进的加权随机森林算法对特征进行差异性检验,研究结果表明蛋白-DNA接口的静电荷、二级结构偏好性和接口空间形态等特征具有显著的偏向性,这些特征将有助于揭示蛋白-DNA的特异性结合机制,并能够为分子生物学家通过实验验证提供参考。3、DSBs和SSBs序列信息特征提取与分类研究。研究使用数据挖掘的算法来分析DSBs和SSBs中潜在的序列特征和属性,通过对序列特征的分类检验,获得了一些具有显著差异的特征。实验通过对序列数据的分析,提取出了四类特征:全序列组成、序列的二肽组成、氨基酸理化属性和位置特异性打分矩阵。为解决蛋白序列长度不同而造成的特征矩阵维度不一致问题,使用了改进的分隔氨基酸(Split amino acid, SAA)转换法统一特征矩阵。实验表明该模型能够对SSBs和DSBs序列数据分类,提出的特征也将有助于生物学家从序列层面对DSBs和SSBs的结合特异性有更深入的了解。综上所述,我们采用数据挖掘技术对DNA结合蛋白进行了较深入的研究,提出了一些解决相关问题的新方法。实验结果表明,我们提出的解决相关问题方法具有较好的效果,研究成果将有助于进一步推动DNA结合蛋白的功能和预测研究。