论文部分内容阅读
circRNA是一种呈闭合环状结构的RNA分子,表达量较低,长期以来一直被当做―噪音‖而不被人们所重视。直到近几年来,随着测序技术的飞速发展,circRNA才终于被大规模的发现;又由于其特殊的环状结构与复杂的生物学功能,一跃成为现阶段转录组相关研究的焦点。但是,目前无论对circRNA结构、分子层面与成环机制方面的研究,还是对其生物学功能的分析,都处于十分初步的阶段。肺癌,作为全球发病率与致死率最高的癌症,一直以来是医学领域的一个难题,近年来circRNA在各类癌症中取得的研究成果也为肺癌的相关研究带来了新的突破口。本文利用了肺癌患者以及对照组的共1,029组RNA-seq数据,通过鉴别并筛选出大量可能与肺癌相关的circRNA。对其进行结构与功能的生物信息学分析,找出其结构特点,完善相关注释信息,并构建一个针对肺癌的circRNA数据库。我们在NCBI上选取了肺癌患者与对照组的质量较好的RNA-seq数据,并将find_circ,CIRCexplorer2与CIRI这三款circRNA鉴别工具通过脚本整合到了一起,用于circRNA的鉴别,最终得到了可信度较高的19,397条circRNA。其中,基因MAN1A2、ZC3H6、SLTM、RSRC1以及RNF168是最高频的几个host gene。通过对这些host gene的GO,KEGG富集分析,发现了他们主要富集到了细胞周期,转录调控,以及包括非小细胞肺癌在内的多种癌症上;再对表达量较高的circRNA进行circRNA-miRNA互作网络分析,发现绝大多数circRNA与癌症相关的miRNA存在互作,这也说明我们得到的circRNA与癌症有很高的相关性。另外,通过对circRNA特征的分析,我们发现了染色体长度,染色体内含子Alu元件密度,都能在一定程度上影响circRNA的产生;单个host gene在大多数情况下只产生1-3个circRNA;考虑到host gene与circRNA的对应关系可能与host gene的某些特定位点有关,本文另辟蹊径对circRNA的―热点‖(即多个circRNA共用的位点)进行了统计分析。结果发现,―热点‖在circRNA中广泛存在,我们得到的circRNA中约有43%的端点为―热点‖,我们还意外地发现了在circRNA前端的―热点‖数量远远大于circRNA尾端的―热点‖(约6倍),这一现象可能与某种尚未发现的circRNA成环机制有关。最后,我们将筛选得到的与肺癌相关的circRNA及其基本信息(包括染色体位置,长度,注释等)进行了统一地分类与整合,并构建了相应数据库及网站,提供对肺癌circRNA及其相关信息的检索,浏览与下载等功能。