论文部分内容阅读
在新疆,绿洲面积仅约占全区面积的5%,适宜植物生长的土地资源非常稀少,并且新疆年降水量低,气候干燥,在这里生长的植物面临着多种多样的非生物胁迫。如今科学家们已经发现多种抗逆基因,有直接保护细胞对抗逆境的物质,也有一些间接参与抗逆反应的物质,但在这些抗逆基因中,LEA基因(late embriogenesis abundant gene,LEA)所表现出的抗性是最多样的,也备受研究人员的关注,LEA基因的研究对于新疆地区乃至全球来说都是极为重要的。本研究基于Bioperl编写Perl脚本,远程从NCBI中下载LEA基因序列,构建出较完整、准确的数据集,并在数据集的基础上编写Perl脚本,统计数据k-mer频率,进行LEA基因分类,使用生物信息学软件对LEA基因进行密码子偏性及其抗性的研究,为挖掘LEA基因深层抗逆机制以及其应用作出新的依据,为极端环境地区的农业发展作出贡献。本文在以下几个方面做了研究:1、基于Bio Perl从NCBI下载LEA基因数据一般在做生物实验时,需要的生物数据基本是通过实验中获得或者在数据库中手工筛选得到,但是这只是基于少量的生物数据,当需要大量生物数据时,就必须借助计算机技术才能实现。而本文研究需要大量的LEA基因数据来构建数据集,就必须利用生物信息学的方法来解决生物数据的搜集,由此本研究中基于Bio Perl工具设计了两种方法,成功的从NCBI中远程下载到LEA基因数据。其中关键词法下载到的数据非常全面,而保守结构域法下载到的数据非常精确。在本文中根据两种方法的优缺点来构建数据集。2、基于K-mer频次原理进行LEA基因分类随着生物信息学及生命科学的飞速发展,被发现的LEA基因越来越多,NCBI中LEA基因的数据量已达到四万多,过去的分类方法已不太适用了,利用新方法对LEA基因进行新的分类是非常有必要的。由此本部分根据基因组中k字符短串出现频次具有分形特征这一原理(K-mer频次),成功利用生物信息学方法得出新的LEA基因分类:LEA7家族与LEA2家族分为一个家族,其他家族不变,总共六个家族,并且每个家族再根据不同频次分为各个亚家族,最后利用Vector软件中的guide tree作对比实验,证明本研究结果的准确性。3、分析LEA基因密码子偏性密码子偏性是影响外源表达的主要因素,但是LEA基因在这方面的研究却不多,仅在文献中见过几个LEA基因序列的研究,并没有从宏观的角度对整个LEA基因的密码子偏性模式进行研究。由此本研究利用EMBOSS中CHIPS和CUSP组件,得出衡量密码子偏性的重要参数:ENc值、GC含量等值,根据参数发现LEA基因密码子偏性并不是很高,使用以A、T结尾的密码子最为频繁。4、分析LEA3蛋白抗性与其保守结构域序列重复次数相关性由于生物实验的一些局限性,以及科学技术的限制,对于LEA蛋白的抗性功能机制尚未研究清楚,根据大量的文献阅读,本研究提出了一个假设,LEA3蛋白的抗性是否与其保守结构域序列重复次数相关,并且成功利用生物信息学方法,验证出LEA3族蛋白序列的亲水性与其保守结构域序列重复次数及阿尔法螺旋的比例相关,即推出LEA3族蛋白序列的抗性与其保守结构域序列重复次数及阿尔法螺旋的比例间接相关。