论文部分内容阅读
ITS是目前唯一一个在植物系统发育研究中广泛使用的核基因。ITS2是ITS主要的变异区,在近缘物种鉴定,特别是DNA条形码研究中具有更高的利用价值。一直以来,系统发育分析将ITS2基因片段作为DNA序列处理,然而ITS2在生物体内会转录成具有二级结构的rRNA分子,其配对区碱基存在特殊的“碱基补偿替换”现象,即配对碱基间的共进化。这与DNA模型中碱基变异的独立性假设存在冲突。然而这种不恰当的模型假设会对ITS2系统发育分析造成多大的影响至今尚无定论。本研究在大数据的基础上,基于RNA模型来评估ITS2在二级结构约束下的进化规律,并评估其对构建进化树的影响,为优化ITS2系统发育分析、获得更为准确的ITS2进化关系树提供借鉴。为全面评估RNA模型对ITS2序列的适合度并分析ITS2二级结构的进化规律,本研究中以属为基本单位,选取了种子植物32目,42科中的70个属,共计2203种、4219条ITS2序列,全面覆盖了种子植物的代表性支系。基因序列下载自GenBank并通过其基因注释信息结合ITS2 Database的Annotate功能界定ITS2。在常规系统发育分析中,选用贝叶斯方法构建基于DNA模型的系统发育树,使用MrModelTest获得最优进化模型,使用MrBayes软件构建贝叶斯树。在基于RNA进化模型的系统发育分析中,首先使用LocARNA软件来预测ITS2共有二级结构,并根据ITS2的保守结构进行人工校正;其次利用PHASE-3.0软件包中的model_selection.pl程序获得最优进化模型;最后使用PHASE-3.0软件包中的mcmcphase.exe程序构建贝叶斯树。对两种分析方法所构建的进化树比较树图拓扑结构、支持率和鉴定效率并进行统计学分析,进而评估使用RNA模型的优越性。研究结果表明:(1)70属ITS2配对区最优进化模型均是RNA模型,其中绝大多数类群是16-state RNA模型,少数是7-state RNA模型。此外,在模型选择结果中是否设置γ模型参数(表示为是否+G)以及7-state模型对错配碱基对(MM)的不同处理(等频率或经验频率)在结果中均有涉及,这些结果表明ITS2配对区的进化模式与DNA的进化模式不一致且存在RNA进化模式的多样性,显示了使用RNA模型研究ITS2系统发育的必要性。(2)配对区的G+C碱基频率总是高于非配对区。碱基对的频率从高至低依次是GC、UA、GU、MM,而碱基对替换速率与之相反,表明ITS2序列倾向于保留稳定的碱基配对(如GC)以维持二级结构。此外,对双替换(rd)、双颠换(rv)、正向速率(沃森-克里克配对转换为GU,rf)和反向速率(由GU转换为沃森-克里克配对,rb)这4个替换速率参数的统计结果显示有34属rd和rv参数值不为0,有19属rd/rv大于1,而其它15属则是rd/rv小于1;在所有情况下rd均小于rf在部分类群如菟丝子属(Cuscuta)中,rb/rf约等于1,但在大多数情况下rb大于rf,这表明真实植物类群中存在CBC且双替换一般通过两步法完成,中间态GU能相对稳定地存在,但会更加快速地转化为沃森-克里克配对。(3)对基于DNA模型和基于混合模型(配对区RNA模型,非配对区DNA模型)的系统发育树进行比较,基于混合模型的系统发育树的支持率在不同区间范围内(支持率大于50%、70%、90%、95%)有不同程度的降低。在支持率大于95%区间内,70属中有30属在加入RNA模型建树后鉴定效率下降,下降百分比最大100%。这表明由于RNA模型以共进化的碱基对作为进化单位,降低了信息位点数量,使得构建的贝叶斯树支持率和物种鉴定率都有不同程度的下降。因此,我们的结果进一步证实了传统使用DNA模型的方法可能会导致支持率和鉴定效率虚高的推测。(4)另一些结果表明使用RNA模型建树后少数类群的支持率和鉴定效率有增加的现象。这可能是由半补偿性突变的存在及共有二级结构指导下序列比对的结果中增加了同源信息位点引起的。基于大数据和新方法体系的研究结论,证明了传统上使用DNA模型对ITS2基因的分析方法需要优化。本文建议在将ITS2基因用于系统发育分析时,应当考虑ITS2二级结构对其进化的约束,将RNA模型加入分析。这为澄清更多进化事实、建立更精确的系统发育学方法提供了新视角。