论文部分内容阅读
生物体内天然状态的双链DNA几乎都是以B构型DNA (B-DNA)存在,也就是沃森克里克在1953年发现的右手双螺旋DNA结构。右手双螺旋DNA理论的提出标志着现代分子生物学的诞生。之后的二十多年间分子生物学家一直把DNA视为在结构上遵循B-DNA模型的静态分子。直到1979年Rich等人通过高分辨率的单晶体X射线衍射技术第一次发现了Z-DNA(Z conformation DNA,又称左手螺旋DNA),科学家们才认识到DNA的构象其实是多种构象之间的动态平衡。在Z-DNA中,嘌呤和嘧啶碱基沿着DNA链形成顺反交替的构象(syn-and anti-conformation)排列并沿着糖基骨架呈现之字形结构,而不像B-DNA中的碱基都是反式构象;同时B-DNA双螺旋中的大沟则在Z-DNA双螺旋中消失,只存在一个类似小沟的结构。Z-DNA构象是一种高能瞬时状态,很难通过体内实验手段捕捉到它的存在。在发现Z-DNA的最初几年里,这种具有不同寻常结构的分子受到了分子生物学家和生物物理学家的高度重视,因为生命科学领域里人们普遍认为结构和功能之间存在相关关系。上世纪八十年代前期,科学家发现了Z-DNA抗体,把Z-DNA定位在了果蝇染色质上转录活跃的区域;还发现了Z-DNA构象的稳定性同DNA双链的负超螺旋密度相关;并找到了Z-DNA在生物体内存在的证据。但是关于Z-DNA的研究进展缓慢,在之后的几年里,这个具有特殊结构的生物分子的生物学意义受到了分子生物学家的广泛质疑。从事Z-DNA构象和功能研究的实验室逐渐减少,以至于上世纪八十年代后期到九十年代初期科学家对Z-DNA的科研兴趣越来越小。随着近二十年来Z-DNA在生物学过程和诸多疾病发生机制中的潜在作用逐渐被揭示,有关Z-DNA的研究开始引起越来越多实验生物学家的关注。Z-DNA从被发现到现在的这三十七年时间里,在Z-DNA生物学功能方面的探索中,人们发现它参与某些基因的转录调控;通过研究人类22号染色体上具有潜在Z-DNA结构的DNA序列的分布情况,发现了这些Z-DNA潜在区域(Potential Z-DNA Forming Regions, ZDRs)会富集在转录起始位点附近,而非随机出现。之后的研究中还发现Z-DNA引起的染色质遗传不稳定性同一些癌症相关,例如白血病和淋巴瘤;Z-DNA也同诸如系统性红斑狼疮、I型糖尿病等免疫缺陷疾病相关,另外Z-DNA还能促进DNA的损伤修复机制引起碱基的插入和缺失。这些碎片样的知识是对目前Z-DNA研究的写照,直到现在科学家们仍对Z-DNA的生物学功能缺乏系统地认识。这不仅仅因为研究Z-DNA的机构少,还因为其构象在生物体内的稳定性较差。一般认为,当DNA片段从B构象到Z构象的转换(B-to-Z transition)过程中DNA负超螺旋(Negative Supercoiling)解旋释放能量,DNA吸收能量使得核苷酸发生构象改变形成反顺交替的结构,因此Z-DNA构象是一种高能状态,且其存在时间很短所以又是瞬时的行为,当它行使功能后便释放能量从高能状态下的Z-DNA恢复成稳定低能状态下的B-DNA构象。由于以上原因,它很难在体内被准确地捕捉和定位,且几种Z-DNA结合蛋白的识别效率较低,通过实验方法检测的效果不佳。综上所述,通过Z-DNA的序列特征和结构特征,采用生物信息学的方法来对其进行预测则是一个较为可行的办法。预测得到的结果不但可以在基因组的尺度上了解Z-DNA的特征,探索ZDRs的分布,还可对Z-DNA生物学功能的研究起到辅助作用。这些都是本研究的出发点和落脚点。Z-DNA潜在区域的预测软件Z-Hunt很早就被Rich科研团队开发出来,并且在1992年经过Ho等人对其诸多方面的改进从而提出了Z-Huntll (http://gac-web.cgrb/oregonstate.edu/zDNA/index)方法。Xiao在2008年的国际基因组信息大会(The International Conference on Genome Informatics 2008)上提出了Z-Catcher方法。Zhabinskaya也在2011年开发出另一种基于SIBZ (superhelically stressedDNA of specified sequence)算法的Z-DNA潜在区域预测方法。Cer开发出了nBMST方法(non-B DNA Motif Search Tool)来搜索non-B-DNA,在对Z-DNA的搜索中单纯地使用了序列特征而摒弃了Z-DNA的热动力学特征。在2013年Wang等人开发了基于序列中的碱基特征来识别能够形成H-DNA和Z-DNA潜在区域的方法dnastructure(网页名称,http://www.utexas.edu/pharmacy/dnastructure/)。但是由于Z-Hunt系列方法年代久远和软件本身的一些缺陷,比如对于输入序列长度的限制,只能输出几种固定长度的潜在Z-DNA片段,只提供基于网页的服务,不再提供安装包的下载和程序的开源,它们都已经不再适应当下的科研要求和资源开源共享的潮流。另外,在Z-DNA数据方面的数据库资源也非常欠缺,目前为止尚未发现以单独存储Z-DNA潜在区域并提供数据查询和下载服务的网站。现存的Non-B DB (https://nonb-abcc.ncifcrf.gov/apps/site/default)数据库中存储了几种常见生物的nBMST预测结果。但该数据库中使用的各种生物基因组的版本没有升级更新,nBMST方法只限于网页查询,程序不开源等原因都影响其应用范围。已知Z-DNA的分布与一些疾病的染色体断裂点的分布一致,但至今无人对Z-DNA与癌症拷贝数变异的潜在关系进行研究。结合以上关于Z-DNA现有的研究情况,本研究目的是:1.通过改进Z-Catcher以提供切实可行、方便快捷的Z-DNA预测的生物信息学方法;2.探索Z-DNA潜在区域在人类基因组和模式生物基因组中的分布;3.对Z-Catcher2的预测结果进行整理、综合构建数据库和Z-DNA网站来供给对Z-DNA感兴趣的科研人员查询、下载使用;4.寻找Z-DNA与结肠癌拷贝数变异的潜在联系。本研究内容主要分为以下四个部分:第一部分:Z-DNA潜在区域的预测方法和Z-Catcher2的提出。通过比较已有的Z-Hunt、Z-HuntⅡ、SIBZ方法、,(?)BMST方法和的dnastructure方法中Z-DNA的搜索策略来讨论这些方法的优缺点。第一,以上几种方法都对输入的DNA片段长度有所限制,Z-Hunt和Z-Huntll的网页查询版本只能提交不超过1Mb长度的DNA查询序列,SIBZ方法的网页查询版本则只接受5-10Kb长度的DNA查询序列,dnastructure方法则是要求输入具有重复序列特征的基因片段根据给定的初始打分来判断潜在的Z-DNA区域。第二,输出结果的限制,Z-Hunt的输出序列长度为16~24碱基;Z-Huntll的输出序列长度为12~16碱基;Z-Hunt系列方法搜索Z-DNA潜在区域的长度被控制在一定范围内的主要原因是平衡搜索速度和结果准确率,而且搜索框的长度还会对Z-Score的大小造成影响,增加了确定Z-DNA预测结果好坏的难度。实际上Z-DNA潜在区域的长度则更应该倾向于非固定长度。SIBZ方法则给出输入序列中每一个碱基可形成Z-DNA的概率值,数值越大则越有可能成为Z-DNA潜在区域,但概率阈值的选择因人而异很难把握。第三,Z-Hunt和Z-Huntll对查询序列的搜索策略都是从查询序列起始位置开始滑动固定窗口,每完成一次搜索固定窗口向后滑动1个碱基然后开始第二次搜索,这样笨拙的搜索方式增加了程序的运行时间也导致预测结果存在重叠现象。另外SIBZ方法的作者推测若是使用100个CPU(Opteron)的服务器分析人类全基因组中的Z-DNA潜在区域大概需要10天时间。这样的搜索策略无疑会降低程序运行速度,对于小片段的查询序列来说还可以应付,但是对于较大的基因组数据来说这样的时间消耗是不可接受的。第四,dnastructure方法和nBMST方法单纯地采用嘌呤-嘧啶交替这一Z-DNA的序列特征来识别Z-DNA潜在区域,而抛弃了Z-DNA的热动力学特征的重要信息,这两种方法在Z-DNA潜在区域的识别上显得更为机械。鉴于已有方法的缺点和不足,本部分研究使用了Xiao的Z-Catcher方法重写了Perl程序命名为Z-Catcher2。重写的程序做了如下改进:第一,修改了Z-Catcher中导致预测结果不准确的程序错误,使用严格的Perl语法编程提高了程序的可读性。第二,减少了产生中间文件的数量,减少程序读写次数从而提高了程序的整体运行速度。第三,提供两种程序调用方式,交互模式和批处理模式,并且增加了帮助命令和Linux下普遍使用的参数提示符来输入程序参数。第四,输出文件中增加了预测结果在染色体上的起始点、终止点的位置信息和ID编号,为后续的研究Z-DNA潜在区域在基因组中的分布提供方便。Z-Catcher2相对于其它已有方法有三个优点:第一,输入序列可以是任意长度的片段,可以是一段基因区域,一条染色体或者是整个基因组文件,且同一文件中可以有多条查询序列。第二,输出的Z-DNA潜在区域长度为大于等于12bps(初始滑窗长度)的序列,因为Z-Catcher2的搜索策略是搜索出尽可能长的不间断的Z-DNA区域,以负超螺旋密度(σ0)为阈值来判断查询序列是否满足形成Z-DNA所需的能量。第三,程序运行快,对人类基因组序列进行一次Z-Catcher2扫描大概需要15小时左右。对Z-Catcher2预测结果的验证方面,使用了经典Z-DNA片段来测试Z-Catcher2的准确性。对人类c-MYC基因的三个已知Z-DNA片段Z1,Z2和Z3进行预测,当σ0=-0.075时可以检测到Z2片段,当σ0=-0.08时可以检测到Z1、Z2片段,当σ0=-0.09时可以同时检测到Z1、Z2、Z3,三个片段。通过比较使用nBMST在人类基因组(version hg19)中的运行结果发现,当σ0=-0.07时,Z-Catcher2预测的Z-DNA潜在区域结果中有66.88%同nBMST预测结果的68.56%有重叠。当σ0=-0.075时,Z-Catcher2预测的Z-DNA潜在区域结果覆盖了86%的nBMST预测结果。剩余未重叠部分则可能是因为nBMST方法未加入Z-DNA的热动力特征所产生的差异。第二部分:利用Z-Catcher2探索Z-DNA潜在区域在人类基因组以及模式生物基因组中的分布。因为Z-DNA构象很难在活体内被捕捉,所以Z-DNA在人类基因组中的分布一直没有系统性的结论。但也有一些零星的分析结果,比如Ho等人最早通过分析137个人类基因序列中的Z-DNA潜在区域指出其在转录起始位点附近会显著富集。类似的结论也在研究小鼠的12841个基因的Z-DNA潜在区域分布情况中得到。还有其它基因组结构简单的生物,诸如腺病毒、大肠杆菌、拟南芥等都有研究人员分析了Z-DNA潜在区域同GC富集区域、转录起始位点之间的关系。另外还有学者研究了小麦、水稻、马铃薯等植物中Z-DNA潜在区域和基因分布、简单重复序列之间的关系,还对那些具有Z-DNA潜在区域的基因进行了GO注释分析。然而对于人类基因组和其它模式生物基因组的Z-DNA分布的研究则比较欠缺。本章使用Z-Catcher2对人类基因组(version hg38),人类近缘的黑猩猩基因组,模式生物基因组(果蝇、秀丽线虫、大鼠、小鼠、斑马鱼、啤酒酵母、拟南芥)进行了Z-DNA的分析。在人类基因组中得到了几个重要结果。首先,Z-DNA潜在区域在基因组中的分布同GC含量虽然具有一定的正相关性,但也有些GC含量较高的染色体中ZDRs的含量相对较低,而一些GC含量较低的染色体中却含有较多的ZDRs。在对其它模式生物的ZDRs预测结果和GC含量的考查中同样发现,二者之间虽具有相关性但这样的相关性并不具有统计学意义,比如小鼠、大鼠基因组的GC含量只比人类和黑猩猩基因组的略高,但其预测得到的ZDRs数量却是前两者的2倍多。其次,人类基因组中预测得到的ZDRs长度分布与随机序列上ZDRs的长度分布明显不同,人类的ZDRs长度大于41 bps的约占40%,而随机序列上的ZDRs长度大于41 bps的序列则只占了0.8%,77.8%的随机序列上的ZDRs长度在12~20 bps之间。再次,Z-DNA潜在区域明显富集在编码基因的转录起始位点附近,并且Z-DNA潜在区域在非编码基因的转录起始位点附近则未见明显富集现象。最后,编码蛋白基因里的外显子中ZDRs的含量显著高于内含子中ZDRs的含量。在考查了其它基因组后发现,除了与人类近缘的黑猩猩基因组中出现类似人类的外显子和内含子所含ZDRs存在差异的现象之外,其余模式生物都不存在这种现象。另外,在长链非编码RNA中ZDRs的密度与编码蛋白基因内含子中ZDRs的密度相似,但其显著低于外显子中ZDRs的密度。第三部分:Z-DNA潜在区域数据库的构建、网页查询以及数据下载。目前存储Z-DNA潜在区域的网站只有Non-B DB数据库。该网站可以下载到使用nBMST方法预测的人类基因组(hg19)和其它常见生物基因组的Z-DNA潜在区域数据。该方法不提供下载使用并且对查询序列大小有限制不能进行大规模搜索,另外随着各物种基因组版本的升级,Non-B DB中的数据已经略显陈旧。本部分中,对Z-Catcher2在各个模式生物基因组中得到的Z-DNA潜在区域的数据进行整理综合,然后建立动态查询网页,面向科研工作者提供Z-Catcher2得到的Z-DNA潜在区域结果和Z-Catcher2程序本身的下载。因为Z-DNA潜在区域的结果相对简单,不涉及二维表之间的关联所以使用轻型开源的SQLite软件来构建数据库。另外SQLite数据库和R语言平台的连接非常方便,R中有专门连接SQLite的程序包。动态网页的制作则使用R语言平台下的Shiny package。 Shiny是一款出自Rstudio公司的在R平台下功能强大的动态网页制作的程序包。动态网页被分成前端的UI界面和后端的SERVER服务器两个单独的R脚本。使用Shiny包可以快速地制作出美观实用的动态网页,省去了理解HTML文件、美化网页等繁琐操作,继而可以专心于数据处理和对处理结果的呈现,目前该软件包已经成为炙手可热的网页制作新方法。第四部分:探索Z-DNA与结肠癌拷贝数变异的潜在联系。Z-DNA的已知生物学功能除了与基因转录密切相关外,就是能够引起染色质的遗传不稳定性。在哺乳动物中,CG、GT等低拷贝重复区域能够引起附近序列发生大片段的缺失、染色体重排现象;而且这些区域也与一些疾病中发现的DNA序列断裂点高度一致。另外染色体二级结构的变化能够引起染色体的拷贝数变异现象,致病的拷贝数变异区域(大片段的缺失和扩增)常见于癌症病人中。但Z-DNA与癌症拷贝数变异的关系还未见报导。本部分研究使用已知可信的结肠癌拷贝数变异峰值区域,通过计算峰值区域内ZDRs的密度与整条染色体内ZDR密度的差异来探索Z-DNA与结肠癌拷贝数变异的潜在联系。发现17个显著扩增的CNV峰值区域中有13个ZDR密度明显高于染色体ZDR密度;28个显著缺失的CNV峰值区域中有15个ZDR密度显著高于染色体ZDR密度;与结肠癌肿瘤恶性程度高度相关的15个CNV峰值区域中有12个区域出现ZDRs富集现象,这提示我们ZDR富集现象使得这些存在癌基因和抑癌基因的区域内由ZDRs引起的遗传不稳定事件发生的频率变高,或者说该区域本身就是遗传不稳定事件发生的高频区,异常的CNV改变了这些基因的表达情况从而也就在根本上促进了癌症的发生以及发展。综上所述,因为Z-DNA的特殊结构和高能瞬时构象使得科研人员对Z-DNA片段本身的探索变得非常困难,有必要采用生物信息预测的方法来对Z-DNA的潜在区域进行预测和分析,从而为Z-DNA生物学功能的研究奠定基石。本课题属于Z-DNA方面的基础研究,以Z-DNA的预测和探索Z-DNA潜在区域在基因组中的分布及其与结肠癌拷贝数变异的潜在关系为研究目的。首先,在本研究组前期工作的基础上开发了一个新颖的预测Z-DNA潜在区域的方法并且使用Perl语言实现该方法,命名Z-Catcher2。其次,使用Z-Catcher2对人类基因组和其他模式生物基因组进行ZDR的预测并且探索了ZDR在基因组中的分布。再次,综合了已有各模式生物基因组中ZDR数据,使用R语言平台构建关于Z-DNA的动态查询网页并提供Z-Catcher2程序的下载,这填补了现阶段Z-DNA数据库和网页查询的空白。最后通过计算结肠癌CNV峰值区域中ZDRs密度和区域边界附近ZDR数量发现了ZDR的分布于结肠癌CNV的潜在联系。希望本课题所做的基础研究能够为Z-DNA更深层次的研究提供帮助和先导知识。