基于系统进化足迹技术的单子叶植物启动子模体预测研究

来源 :天津师范大学 | 被引量 : 0次 | 上传用户:zlh888617
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物信息学作为一门新兴的交叉学科,融合了生物学、计算机科学和数学科学等多学科的知识来研究生物数据所蕴含的生物学奥秘。其中核酸和蛋白质的序列分析是生物信息学研究的重点,而序列分析中的DNA序列模体预测一直都是生物信息学研究的一个重要问题,尤其是转录因子结合位点的模体预测研究。这是由于随着新一代测序技术的飞速发展及它的低成本高效率的特性,使得更多的生物基因组序列被测序出来,但研究人员并没有完全掌握已测序生物的基因组功能,因此研究人员侧重研究这些基因组的功能序列元件,而转录因子所识别的顺式调控元件(也称作模体)正是在基因表达过程中起关键作用的功能元件。所以转录因子结合位点的模体发现问题是目前生物信息学中的热点问题。新一代测序技术的发展使得大量物种被完整测序出来,这为运用比较基因组学提供可能。由于最近几年单子叶植物柳枝稷、稗、粟和藜的全基因组测序及功能注释已经完成,而水稻、高粱、玉米、狗尾草、短柄草的全基因组早已测序完毕,与此同时这些物种进化距离彼此邻近,因此本文选择这几种植物的全基因组序列作为研究单子叶植物生物特性的研究数据。由于单子叶植物物种测序量的增多,在模体预测研究时本文采用原核生物中比较流行的系统进化足迹技术。在研究植物时,由于参考基因组数目不足,目前该技术只应用到某几类转录因子的调控模体研究中。为了提升模体预测的准确度,利用有关算法的互补性,本文提出一种新的研究思路和方法,即运用多种模体发现算法集成的系统进化足迹技术和最新只针对模体的聚类算法相结合进行全基因组范围内的启动子预测。最终成功预测了大量的启动子模体,并且应用此方法提高了模体预测的准确率。为了方便生物学家使用我们设计的算法和工具,我们将上述一系列的研究方法构成了模体预测分析工具包P3CRE,相应软件可通过https://github.com/shaoqiangzhang 免费下载使用。
其他文献
2016-2019年间在皖西山区对653份水稻品种进行了对稻瘟病和稻曲病的抗性鉴定,并评价了水稻品种对这两种病害的抗性水平。主要研究结果如下:1)根据供试水稻品种对叶瘟病和穗瘟病的抗性鉴定结果,以综合抗性指数评价不同品种水稻对稻瘟病的抗性。结果显示:经鉴定的640份水稻品种均未对稻瘟病表现出高抗,其中389份水稻品种表现为抗病,167份水稻品种表现为中抗,84份水稻品种为感病或者高感。B、WJ、7
局部修复码(locally repairable codes,简称LRC)是一类纠删码,最近被提议用于分布式存储系统中的数据存储.2016年,夏树涛等人指出了一类有多个修复集合的二元单校验局部修复
聚类是一种常用的数据挖掘算法,它通过将数据划分为多个不同的集群,同一个集群中的元素相识度较高,而不同集群中的元素相似度较低,从而挖掘出数据中的有用信息。首先,本文分
近年来,伴随着国家经济的发展和人民生活水平的提高、每个家庭拥有一台甚至多台的私家车,出行的便利使得人们越来越喜欢旅游,全民旅游正在掀起热潮,国内旅游业迅速发展,全国各地也越来越重视风景区的开发,然而很多风景区资源没有得到合理的开发和利用,并且一些不合理的开发使风景区反而受到了破坏,风景区的合理开发利用与资源保护之间失衡严重。同时,各个景区之间同质化跟风现象严重,景区原有的文化历史背景没有得到充分的
2013年3月3日,云南省洱源县发生了Ms5.5地震,造成了一定的经济损失和人员伤亡。该区断裂构造复杂,地震灾害频发,震区所在的滇西北地区是现今地震活动较为强烈的地带,对该区地壳精细结构及地震重新定位的研究有助于认识地震孕育的深部环境及防震减灾。本研究收集了2010年6月12日至2013年9月13日中国地震科学探测台阵——喜马拉雅计划Ⅰ期在南北地震带南段(23°~28°N,97°~102°E)布设
UVR8(UV Resistance Locus 8)是目前唯一被发现,能感受环境中紫外B光(UV-B)的特异光受体,植物通过其接受UV-B信号,调控其生长发育进程。目前对UVR8基因的研究主要集中在以拟
近年来,含氟化合物因其能够调节分子的p Ka值、改变临近基团的酸碱性、增加分子的亲油性、代谢稳定性、生物利用率等,被越来越多的应用于医药化学、农药化学、精细化工等领域
本文以氧化石墨烯为基体材料,成功合成出三种以氧化石墨烯的三种衍生材料,这三种衍生材料均具有吸附量高,便于分离,可多次循环利用以及绿色环保等特点,是具有重要研究意义的
由于生物信息学中对基因进行测序的成本大幅下降,尤其是ChIP-chip和ChIP-seq这两种测序技术的广泛使用,使得能够在很短地时间内识别出大量的转录因子的DNA序列,产生了庞大的C
平面上沿整数格点从(0,0)走到(n,n)的格路,若只允许的步法为上步(0,1)和下步(1,0),并且恰好有m个上步在直线y=x的下方,称为(n,m)-Dyck路,其中n,m都是整数,且n≥1,0≤m≤n.经典的Chung-F