论文部分内容阅读
目的: (1)获取人类长链非编码RNA在16个哺乳动物中的直系同源物,研究人类长链非编码RNA的进化特征及种系特异性; (2)建立人类长链非编码RNA在16个哺乳动物中的直系同源基因数据库,为大规模的长链非编码RNA的比较研究与功能分析提供重要数据。 方法: 1.获取人类长链非编码RNA在哺乳动物中的直系同源物 我们根据GENCODE v18项目报道的13562个人类长链非编码RNA,对黑猩猩(chimpanzee)、猕猴(macaque)、狨猴(marmoset)、眼镜猴(tarsier)、鼠科狐猴(mouse lemur)、树鼩(treeshrew)、小鼠(mouse)、大鼠(rat)、豚鼠(guineapig)、兔(rabbit)、狗(dog)、牛(cow)、大象(elephant)、刺猬(hedgehog)、负鼠(opossum)、鸭嘴兽(platypus)这16个哺乳动物进行了基因组搜索,经过筛选得到人类长链非编码RNA在哺乳动物中的直系同源物。由于长链非编码RNA存在补偿性突变现象,具有序列保守性低而结构保守性高的特点,BLAST/BLAT等基于序列保守性的传统搜索软件无法可靠获取长链非编码RNA同源序列,因此我们采用基于结构比对的RNA搜索软件Infernal搜索人类长链非编码RNA在多个物种中的同源序列。大规模的基因组搜索工作主要在本地PC服务器及广州超级计算中心“天河二号”超级计算机上展开。 2.构建长链非编码RNA及其直系同源物的系统发育树 我们用Phylip计算序列间距离,构建了长链非编码RNA及其直系同源物的系统发育树。 3.根据人类长链非编码RNA及其同源基因揭示人类与灵长类特异性长链非编码RNA 我们把长链非编码RNA基因在某物种中存在直系同源基因的情况赋值为1,不存在直系同源基因的情况赋值为0,将13562个人类长链非编码RNA在16个哺乳动物中的直系同源状态转换为离散数据。根据这些离散数据,我们对长链非编码RNA在哺乳动物系统发育树中的获得/缺失事件进行了估计。 4.人类长链非编码RNA及其同源物的转座子注释 根据转座子数据库RepBase,我们采用RepeatMasker来注释13562个人类长链非编码RNA及其在16个哺乳动物中的同源序列所含转座子。 5.根据人类长链非编码RNA及其同源基因建立哺乳类直系同源基因数据库LongMan 我们根据13562个人类长链非编码RNA及其同源基因,结合生物信息学注释,在此基础上采用MySql5.1在Linux CentOS6.5系统环境下搭建了哺乳动物直系同源长链非编码RNA数据库LongMan。数据导入使用Python语言,Apache作为web服务器,平台的操作网站使用Symfony框架进行搭建。 结果: 1.人类长链非编码RNA种系特异性的分析结果 GENCODE v18报道的13562个人类长链非编码RNA在其他物种中的直系同源基因分布情况如下: 单孔目哺乳动物鸭嘴兽中有1008个(7%)直系同源基因;啮齿目动物小鼠和大鼠中分别有4416个(30%)和4099个(28%);人类近亲黑猩猩中有13239个(98%)与人类长链非编码RNA直系同源,而有323个(2%)长链非编码RNA为人类特有。 根据Phylip中mix软件估计的长链非编码RNA在各祖先节点的获得/缺失情况显示,兔形目、啮齿目、树鼩目及灵长目的早期共同祖先共有7458个(55%)同源基因。自此分歧之后,兔形目与啮齿目的祖先所含同源基因数目逐渐减少,而灵长目与树鼩目的祖先所含同源基因数逐渐增多,到灵长目祖先已有10498个(77%)同源基因。 2.人类长链非编码RNA在哺乳动物中的直系同源基因数据库LongMan的建立 LongMan数据库目前收录人类长链非编码RNA及其直系同源基因共133646条,并提供长链非编码RNA的序列信息、比对信息、外显子信息、转座子信息、种系特异性插入与缺失信息等。与PubMed类似,LongMan可多条件组合查询长链非编码RNA,除此之外还提供灵活的显示与下载功能。 结论: 1.对13562个人类长链非编码RNA及其直系同源基因的分析,揭示它们呈现出明显的种系特异性,且其中约2%是人类特有,超过70%的人类长链非编码RNA为灵长类特有。除此之外,在单孔目哺乳动物鸭嘴兽中发现了1008个同源基因,提示了部分长链非编码RNA的悠久起源。 2.LongMan是首个大规模收录同源长链非编码RNA的数据库,不仅拥有大批量(人类长链非编码RNA及其直系同源基因共133646条)、多物种(包括人类在内共17个物种)、多层次(物种涵盖单孔动物、有袋类哺乳动物及真哺乳动物)的长链非编码RNA数据和次级信息,而且提供长链非编码RNA的检索、显示、序列分析等功能,创新性的将转座子和长链非编码RNA结合在一起进行了分析与注释。其同源数据对长链非编码RNA的比较与功能研究具有重要价值。