论文部分内容阅读
双向启动子是反向转录基因对的共享启动子序列,可以调控两个方向的基因的转录。在人类基因组中,大于10%的蛋白质编码基因头对头地位于方向相反的两条链上,且其转录起始位点之间的距离小于1000bp。双向启动子上的多种DNA转录调控元件的结合能影响两个反向的基因的表达。最近,RNA聚合酶II的ChIP-seq数据被用来识别编码基因和非编码RNA的启动子,然而,还没有用ChIP-seq数据在多种细胞系中对双向启动子进行识别的研究。本文利用ENCODE计划中提供的丰富的高通量测序数据,对多种细胞系中进行了双向启动子的识别,分析了多种转录因子和DNA甲基化对双向启动子的类型的影响。本文的主要内容包括:(1)基于ENCODE计划高通量测序数据的双向启动子识别方法。启动子区域的识别一直是转录调控研究中的一个重要课题,ENCODE计划的实施创造了丰富的数据资源并为该领域的研究提供了新的数据支持。RNA聚合酶II的ChIP-seq数据在转录起始位点附近有明显的峰值,因此我们设计出了该数据在双向启动子区域的表示模型,并利用粒子群算法学习模式参数并识别出双向启动子中调控区域的位置。我们使用算法成功地在16种细胞系的51种个体中对双向启动子调控区域进行了识别。此外,我们还提取了可以对双向启动子类别进行分类的特征,并采用分类方法将双向启动子分成了4种类别。(2)多种转录因子对双向启动子结合的偏好性分析。转录因子在基因转录调控环节中起到了重要的作用,本文在Hela-S3细胞系中对60中不同的转录因子在双向启动子上的结合情况进行了分析。对单个转录因子在双向启动子的调控区域上的偏好性进行了考察并分析了其对双向启动子类别的影响。还利用Apriori算法对转录因子进行了关联分析,以分析不同转录因子之间的关系。(3) DNA甲基化对双向启动子影响的分析。DNA甲基化是表观遗传层面上重要的一部分,本文利用DNA甲基化测序数据对其在双向启动子上的作用进行了分析。