论文部分内容阅读
随着生物信息学的大力发展,研究者们不断地在探究基因调控规律,而不能深入的理解转录调控规律已经成为研究调控网络的瓶颈。目前,转录因子结合位点识别问题已成为生物信息学的热点研究领域之一。转录因子作为一种重要的转录调控因子,在基因表达的过程中,通过与特定的DNA序列相结合,调控下游基因的表达,抑制或增强其作用,是基因表达的关键步骤。识别这些特定的DNA序列对理解基因调控具有重要意义。随着高通量自动化测序技术的快速发展,染色质免疫共沉淀(ChIP)技术与二代测序技术相结合的ChIP-seq技术为转录因子结合位点识别研究提供了海量的数据。ChIP-seq技术在全基因组上免疫沉淀DNA片段,为全基因组范围上识别转录因子结合位点提供了高分辨率的数据,成为了研究转录因子结合位点的常规手段。现在已有许多转录因子结合位点识别算法用于寻找ChIP-seq数据中的转录因子特异结合序列,但这些算法依然存在很多问题。首先,现存的这些算法不足以胜任ChIP-seq的海量数据而导致不切实际的开销;其次,这些算法过度依赖重复序列过滤,无法区分识别位点真伪等缺点。本文在现有发表的ChIP-seq数据基础上,挖掘和总结ChIP-seq数据的特点,并针对这些特点,利用期望最大化(expectation maximization, EM)算法的思想,提出了一个简化的EM算法。已有的基于EM的识别转录因子结合位点识别算法忽略了ChIP-seq数据的特点,虽然成功的发现了真实的转录因子结合位点,但却付出了时间的代价。本文中通过将该算法在水稻ChIP-seq数据和小鼠胚胎原细胞ChIP-seq数据上进行检验。结果证明,与已有的算法相比,该算法消耗的时间更少,并能准确的识别已有的和新的转录因子结合位点。本文提出的算法提高了ChIP-seq数据的转录因子结合位点识别算法的性能,对转录因子的研究提供了新的技术手段和重要工具。