论文部分内容阅读
由于二代测序技术的不断发展,基于二代测序技术的RNA-seq大大加速了转录组学的研究。通过海量的转录组测序数据,生物体内不同组织,不同发育时期的转录本被逐渐解读。在现在,转录组的重构工作已有成熟的流程与软件进行处理,丰度较高的转录本如mRNA的表达规律和可变剪切信息都可以方便地获得。而随着测序深度的增加,低表达量的转录本开始进入人们的视野,其中环形RNA就是其中之一。由于环形RNA的表达量非常低,并且由于特殊的反向剪切连接结构会导致不完全映射,所以在以前通常会因为无法被映射软件识别而被认为是测序错误或者背景噪音而被忽略。随着测序深度的增加,研究发现环形RNA是可以在生物体内稳定存在的一种转录本,并且某些环形RNA有着与microRNA结合的能力,这说明环形RNA可能不只是线性转录本剪切的中间产物,可能拥有某些的功能。所以环形RNA的预测是研究转录本中环形RNA的第一步。 环形RNA的最大特征是其具有反向剪切位点,所以目前预测环形RNA的软件都是基于这一特点来预测一条读段是否来自于环形RNA。这个方法的优点在于对于高通量短读长的测序数据,环形RNA发生反向剪切的位置可以被迅速确定。而缺点在于这些软件通常只能预测到反向剪切位点,而无法获得环形RNA内部的序列,这样的方法不利于我们对环形RNA的功能进行预测,也无法得知环形RNA内部发生的可变剪切事件以及功能域。为此,CIRI-AS算法通过将拥有同一个反向剪切位点的读段进行聚类,通过找到读段上的剪切事件来重构环形RNA的全貌。这种方法从一定程度上预测出了环形RNA的全长,但是依然无法直接证明环形RNA的结构是否正确。因此,需要一款新的算法来找出最直接的证据证明环形RNA的全长序列的正确性。 CIRI-RO算法是一款致力于寻找全长环形RNA的算法,这个算法通过寻找一对读段的上的5末端反向重叠区,来判断这一对读段是否来自于被反转录一周以上的环形RNA,通过映射信息验证的一对读段则被认为是跨过环形RNA分子全长的读段,那么这就是证明环形RNA分子内部结构的直接证据。通过模拟数据的测试与其他基于反向剪切位点的算法进行比较,我们发现CIRI-RO算法拥有很高的灵敏度以及很低的假阳性率,但是对真实数据有一定的要求,例如样品中需要含有全长的环形RNA,并且库长和读长都要相对大。从结果来看,CIRI-RO更偏向于找到长度短,表达量低的全长环形RNA分子,而CIRI-AS倾向于更好地预测长度较长,表达量较高的环形RNA分子。CIRI-RO算法虽然拥有一定的局限性,但是这个算法是目前唯一可以找到覆盖环形RNA全长读段的软件,这些被找到的读段都是可以直接证明环形RNA的内部结构的证据。 由于CIRI-RO算法与CIRI-AS算法都可以输出支持某个环形RNA的所有读段的映射情况。为了方便用户的使用,并更直观地了解环形RNA内部结构以及发生的可变剪切,我们开发了一款专门可视化这两款算法输出结果的软件。通过可视化的环形RNA内部结构、可变剪切事件以及所有读段的映射情况都可以直观呈现,并且可以将两款算法的结果进行结合输出,补齐某些因为覆盖度低而无法被完整覆盖的环形RNA。这款可视化软件的开发大大简化了对环形RNA内部结构的分析,提高了CIRI系列软件的用户体验。