论文部分内容阅读
由于二代测序技术的发展,不但大大降低了测序成本,而且还极大地提高了测序的通量。现在我们能以低成本,高通量获取基因组数据。更重要的是,二代测序技术应用到转录组的分析,使我们能获得细胞的精确的转录表达谱,这是以前的方法所不能比拟的。通过测序的方法计算基因表达量,通常要依赖覆盖度,不同的模型假设会得到不同的表达量。因此对二代测序产生的测序片段(reads)在基因上的分布性质的研究对计算基因表达量有重要的意义。在论文中,我们对reads的碱基成分,错误率以及其随基因序列GC含量变化的分布性质进行了考察。通过我分析发现reads的错误率在尾端显著增大,而且reads在基因中的分布,有在高GC含量区域丰度较高,而低GC含量区域丰度较低的规律。人类基因组计划开展以来,越来越多物种的基因组被测序出来。通过对基因组上基因结构的分析,人们发现多细胞真核生物的内含子(intron)的数量随长度分布呈现峰的特性,有的有双峰,有的只有单峰,但是在长度50-150bp(basepair)之间普遍都存在峰。峰值对应的长度是这部分内含子的最优长度,我们把峰值附近这部分内含子称作小内含子(minimal intron).通过我们之前的研究,发现这些小内含子具有重要的生物学意义,它们在基因中的位置在物种间极其保守,而且大都位于看家基因中,另外它们还决定了可变剪接的方式。可见,这个峰的维持对真核生物具有极其重要的意义。但维持最优长度峰的机制是什么还不得而知。在之前我们尝试应用内含子中的插入删除(Indel)的性质对峰的存在进行解释,但是由于测序数据的缺乏,只是大致观察到小内含子在最优长度两边的插入删除偏好性显著不同,大于最优长度的小内含子中删除(deletion)占主导,相反则插入(insertion)占主导。现在随着“千人基因组计划”数据的公布,我们重新分析了重测序的179个人(非洲人,欧洲人和亚洲人)来更加深入的研究小内含子峰的维持机制。通过对不同人群的Indel分析,我们都发现所有内含子中的插入删除数量随长度的增加逐渐减少,而且在各长度上删除的数量始终大于插入的数量。通过分析插入删除周围10bp的A&T碱基成分,我们发现随插入删除长度的增加,A&T组分的波动不断增大,波动的范围也不断扩宽。通过对小内含子中插入删除的频率进行分析,发现插入删除随着频率的增大明显的表现出维持最优长度的性质。最后我们对含有小内含子的基因和所有的基因进行了功能的富集性分析,并比较不同功能的基因的平均插入删除频率。