生物序列特征提取新方法的研究

来源 :中山大学 | 被引量 : 0次 | 上传用户:qq11202365
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分析化学信息学是分析化学的一个重要分支,它是建立在多学科基础上的交叉学科。人类基因组计划的完成积累了大量关于基因序列和蛋白质序列数据,为化学信息学的发展提供了新的机遇并发出新的挑战。本文立足于海量的生物序列数据资源,致力于生物序列特征提取新方法的探索,对生物信息学中的热点问题进行了以下五个方面的研究: 1.运用傅立叶功率谱首次研究了基因中外显子的周期三行为。结果表明:大多数外显子独立存在于基因中时并不具有周期三行为,而当基因被剪切后外显子连在一起编码蛋白质的时候才具有周期三行为。并且这种行为特征与外显子的长度、碱基在密码子三个位置上的分布以及氨基酸密码子的使用偏好均有密切关系,同时符合蛋白质翻译次序的外显子也具有对密码子使用的偏好性。具有周期三行为的编码区更倾向于使用密码子第三位是G/C的密码子。密码子使用的偏好性是蛋白质编码区所特有的性质。这一研究结果对于提高基因识别的准确率以及内含子功能的研究具有重要意义。 2.将分形理论应用于人类基因自相似性研究,运用网格维数刻画了人类基因编码区的分形特征。首次发现基因中整个编码区的分形维数小于单个外显子的维数,表明整个编码序列比单个外显子更有序。通过与随机序列的对比研究确证了此结论,并且外显子的维数与随机序列差不多,表明外显子更倾向于随机分布。结合傅立叶功率谱和编码区的分形特征,我们发现对于那些具有较多外显子的基因,编码序列包含了较少的信息,因此具有较小的维数,一部分的遗传信息可能储存在内含子中。对于那些具有较少外显子的基因,编码序列包含了更多的遗传信息,具有更大的复杂性,因此维数较大。 本文的研究结果对于更好的理解基因序列的复杂性和内含子功能的研究具有一定的理论价值。 3.结合了小波分析在数据挖掘领域的最新研究成果,建立一种生物序列相似性研究的新方法。通过离散小波变换把数字化的蛋白质序列从时域转化到频域,设定阈值分别把各个频域信号转化为字符串序列,根据最大公共子序列定义序列匹配度,并将它作为相似性的测度。综合不同频域层次序列的相似度全面考察生物序列的相似性。通过对蛋白质序列和基因序列的研究,表明基于离散小波变换的生物序列相似性研究方法不仅能够考察不同物种同一家族蛋白质的相似性情况,而且能够考察同一物种相同基因家族中不同成员之间的相似性情况。本文的研究结果为生物序列相似性研究开拓辟了新的研究思路。 4.基于小波包分析提出了一种同源蛋白特征提取的新方法,首次提出将小波包能量作为同源蛋白质的特征向量来研究同源蛋白质序列的进化和变异性。通过对不同物种血红蛋白α链和β链的同源性分析表明,血红蛋白的α比β链更具有保守性。结合两条链的小波包能量谱,结论显示:在猪、牛、马、鸡和鱼等物种中,猪的血红蛋白与人的血红蛋白具有最大的相似性,因此在医学上有望用猪血代替人血来解决血液短缺的问题。对直系同源蛋白和旁系同源蛋白序列的小波包能量谱的研究结果表明,小波包能量可以作为同源蛋白质的特征向量来考察同源序列的遗传和变异性,尤其是对直系同源蛋白具有较好的适应性。由于本方法不需要大量的样本作为训练集,而且属于非参数法,使用简单方便,对于蛋白质的同源研究具有重要理论价值和实践意义。 5.基于小波能量特征向量在蛋白质同源性研究中的作用,提出小波能量谱识别蛋白质活性位点的新方法。运用Autosignal软件选择Morlet复小波对数字化的蛋白质序列进行连续小波变换,小波能量谱可用于蛋白质活性位点的识别。同源蛋白质序列的能量最大值通常分布于相同的频率处,小波能量比较集中的区域往往与蛋白质序列的保守位点相对应,它们通常都是蛋白质的活性位点。本文的研究结果为对蛋白质功能的研究开辟了新途径。 论文中涉及的程序均使用Matlab程序语言编写。本论文系国家自然科学基金和广东省自然科学基金资助项目。
其他文献
20世纪70年代开发出的液晶聚合物(LCPs)是一类具有优异性能的聚合物。液晶聚合物制品具有高强度、高模量等优异性能,其分子还具有自发取向的特征,主要用来制作特种合成纤维和
光敏剂是光动力治疗(PDT)中的重要组成,但因目前使用的光敏剂多为疏水性物质、在水中易团聚,从而影响了PDT对肿瘤的治疗效果。寻找亲水性好的光敏剂载体成为光动力治疗领域中的
本文对青霉SHZK-15液体和固体发酵生产(+)-BrefeldinA的工艺条件进行了研究,通过正交试验优化培养基的组成、发酵时间、接种量等条件对(+)-BrefeldinA产量的影响,最终确定较优
学位
本文选取了L-二-2-噻吩甲酰酒石酸与氯化稀土在室温下反应合成了一系列结构相似的单稀土配位聚合物,{[Ln2L3(CH3OH)x(H2O)7-x]·aCH3OH·bH2O}n(Ln=La(1),Ce(2),Nd(3),Sm(4),Pr’(12),Nd’(13),Sm’(14)),{[Ln2L3(CH3OH)x(H2O)6-x]aCH3OH·bH2O}n(Ln=Eu(5),Gd(6),Tb(7),D
基质固相分散(MatrixSolidPhaseDispersion,MSPD)是一种新型的样品前处理技术,可以同时分散和萃取固体、半固体样品。基质固相分散已经广泛应用于动物组织、水果、蔬菜、果汁、
在化学中分子的手性特征虽常见但却令人迷眩。许多复杂的生命现象可通过分子的手性识别去理解。由于手性在化学、生物化学、医药以及材料科学等领域发挥着越来越重要的作用,研