论文部分内容阅读
转录因子结合谱是指转录因子能够特异性识别并结合的所有DNA序列及其相对亲合性。目前鉴定转录因子DNA体内结合谱主要方法是依赖于染色体免疫共沉淀实验(ChIP)及高通量测序(ChIP-Seq)技术,是目前研究转录因子DNA体内结合谱的主要技术。ChIP-Seq技术是将ChIP实验与下一代测序技术相结合,通过ChIP实验得到能够与转录因子相结合的DNA片段,采用下一代测序技术对这些片段进行高通量测序,获得序列信息,通过生物信息学分析,研究转录因子调控网络。 随着高通量测序技术的飞速发展,公共数据库中收录了大量的转录因子NF-κB结合谱数据。由于数据分析方法和软件繁多,采用标准统一的数据处理流程综合分析多组数据的研究较少,鉴于这种现状,本文通过分析NCBI数据库中的NF-κB ChIP-Seq数据,构建了一套具有通用性的转录因子ChIP-Seq数据分析流程:(1)原始测序数据收集整合;(2)数据格式统一化;(3)数据质量控制、评估、筛选;(4)原始数据预处理之后进行reads mapping,核验mapping率;(5)peak calling;(6)peak交集重叠分析,设定1bp重叠即认定为两个峰之间存在交集;(7)模体挖掘分析,首先,将peak按照富集倍数由高到低排序,取富集倍数排在前500的peak,然后对这些peak进行宽度截取,截取summit上下游各50bp,以此来保证MEME的运行速度和效率,获得最终模体。 本文共收集到14篇文章的48个可用的NF-κB p65ChIP-Seq数据,其中12篇文章的42个数据是人的ChIP-Seq数据,2篇文章的数据是鼠的ChIP-Seq数据,依据数据实验组和对照组的设定情况分成27组。按照本文构建的ChIP-Seq数据分析流程,处理所有的NF-κB p65ChIP-Seq数据并进行建库,主要处理结果上传到服务器,以供查阅。 筛选出实验条件相同的四种细胞ChIP-Seq数据分析结果进行深度挖掘分析,使用intersect组件进行重叠峰取交集,获得396个共有的转录因子结合峰。通过对这396个结合峰进行模体挖掘分析验证了这些结合峰与NF-κB p65高度相关,因此,这396个结合峰被确定为是NF-κB p65与DNA相互作用的高度保守结合区域。随后,对这些保守结合区域的关联基因进行了功能注释和信号通路分析,发现342个基因与细胞内的炎症反应和免疫应答存在着密切的关系,同时能够调节细胞的新陈代谢过程和细胞生长、分化以及凋亡,说明这些关联基因与NF-κB密切相关,作为NF-κB调控的保守靶基因能够在疾病诊断等方面起到重要作用。 综上所述,本文构建了标准统一的NF-κB p65ChIP-Seq数据分析流程,依照该流程分析了大量的ChIP-Seq数据,并建立了p65ChIP-Seq数据库。同时,选取其中四种细胞的数据分析结果进行深度挖掘分析,获得396个高度保守的结合峰,并对这些结合区域的关联基因进行了GO功能分析和信号通路分析,为利用NF-κB靶基因进行疾病诊断等提供了重要资源。