人类长链非编码RNA在哺乳动物中直系同源序列的鉴定及数据库LongMan的建立

来源 :南方医科大学 | 被引量 : 0次 | 上传用户:jxdytmj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的:  (1)获取人类长链非编码RNA在16个哺乳动物中的直系同源物,研究人类长链非编码RNA的进化特征及种系特异性;  (2)建立人类长链非编码RNA在16个哺乳动物中的直系同源基因数据库,为大规模的长链非编码RNA的比较研究与功能分析提供重要数据。  方法:  1.获取人类长链非编码RNA在哺乳动物中的直系同源物  我们根据GENCODE v18项目报道的13562个人类长链非编码RNA,对黑猩猩(chimpanzee)、猕猴(macaque)、狨猴(marmoset)、眼镜猴(tarsier)、鼠科狐猴(mouse lemur)、树鼩(treeshrew)、小鼠(mouse)、大鼠(rat)、豚鼠(guineapig)、兔(rabbit)、狗(dog)、牛(cow)、大象(elephant)、刺猬(hedgehog)、负鼠(opossum)、鸭嘴兽(platypus)这16个哺乳动物进行了基因组搜索,经过筛选得到人类长链非编码RNA在哺乳动物中的直系同源物。由于长链非编码RNA存在补偿性突变现象,具有序列保守性低而结构保守性高的特点,BLAST/BLAT等基于序列保守性的传统搜索软件无法可靠获取长链非编码RNA同源序列,因此我们采用基于结构比对的RNA搜索软件Infernal搜索人类长链非编码RNA在多个物种中的同源序列。大规模的基因组搜索工作主要在本地PC服务器及广州超级计算中心“天河二号”超级计算机上展开。  2.构建长链非编码RNA及其直系同源物的系统发育树  我们用Phylip计算序列间距离,构建了长链非编码RNA及其直系同源物的系统发育树。  3.根据人类长链非编码RNA及其同源基因揭示人类与灵长类特异性长链非编码RNA  我们把长链非编码RNA基因在某物种中存在直系同源基因的情况赋值为1,不存在直系同源基因的情况赋值为0,将13562个人类长链非编码RNA在16个哺乳动物中的直系同源状态转换为离散数据。根据这些离散数据,我们对长链非编码RNA在哺乳动物系统发育树中的获得/缺失事件进行了估计。  4.人类长链非编码RNA及其同源物的转座子注释  根据转座子数据库RepBase,我们采用RepeatMasker来注释13562个人类长链非编码RNA及其在16个哺乳动物中的同源序列所含转座子。  5.根据人类长链非编码RNA及其同源基因建立哺乳类直系同源基因数据库LongMan  我们根据13562个人类长链非编码RNA及其同源基因,结合生物信息学注释,在此基础上采用MySql5.1在Linux CentOS6.5系统环境下搭建了哺乳动物直系同源长链非编码RNA数据库LongMan。数据导入使用Python语言,Apache作为web服务器,平台的操作网站使用Symfony框架进行搭建。  结果:  1.人类长链非编码RNA种系特异性的分析结果  GENCODE v18报道的13562个人类长链非编码RNA在其他物种中的直系同源基因分布情况如下:  单孔目哺乳动物鸭嘴兽中有1008个(7%)直系同源基因;啮齿目动物小鼠和大鼠中分别有4416个(30%)和4099个(28%);人类近亲黑猩猩中有13239个(98%)与人类长链非编码RNA直系同源,而有323个(2%)长链非编码RNA为人类特有。  根据Phylip中mix软件估计的长链非编码RNA在各祖先节点的获得/缺失情况显示,兔形目、啮齿目、树鼩目及灵长目的早期共同祖先共有7458个(55%)同源基因。自此分歧之后,兔形目与啮齿目的祖先所含同源基因数目逐渐减少,而灵长目与树鼩目的祖先所含同源基因数逐渐增多,到灵长目祖先已有10498个(77%)同源基因。  2.人类长链非编码RNA在哺乳动物中的直系同源基因数据库LongMan的建立  LongMan数据库目前收录人类长链非编码RNA及其直系同源基因共133646条,并提供长链非编码RNA的序列信息、比对信息、外显子信息、转座子信息、种系特异性插入与缺失信息等。与PubMed类似,LongMan可多条件组合查询长链非编码RNA,除此之外还提供灵活的显示与下载功能。  结论:  1.对13562个人类长链非编码RNA及其直系同源基因的分析,揭示它们呈现出明显的种系特异性,且其中约2%是人类特有,超过70%的人类长链非编码RNA为灵长类特有。除此之外,在单孔目哺乳动物鸭嘴兽中发现了1008个同源基因,提示了部分长链非编码RNA的悠久起源。  2.LongMan是首个大规模收录同源长链非编码RNA的数据库,不仅拥有大批量(人类长链非编码RNA及其直系同源基因共133646条)、多物种(包括人类在内共17个物种)、多层次(物种涵盖单孔动物、有袋类哺乳动物及真哺乳动物)的长链非编码RNA数据和次级信息,而且提供长链非编码RNA的检索、显示、序列分析等功能,创新性的将转座子和长链非编码RNA结合在一起进行了分析与注释。其同源数据对长链非编码RNA的比较与功能研究具有重要价值。
其他文献
  目的:本文将改进的全变分模型中的保真项由L2范数扩展为L1范数形式。方法:本文运用三种方法:半二次规整化方法,基于Bregman距离迭代方法,逆尺度空间方法。结果:由不动点方法可
  传统的基于面片的多视角三维重建算法在扩展面片时由于特征点检测稠密分布不均,容易导致重建结果出现部分区域空洞。本文提出了一种优化特征点检测的三维重建方法。提出的
刘大为先生从事佛造像工作至今己50多年,一直为国内外知名庙宇创作大型佛像,动辄几十米高,享誉海内外。他的作品代表着我国当代佛像造像技术的最高成就,至今为止刘大师的大佛
  针对不规则显示表面投影的几何校正问题,提出了一种基于相位测量轮廓术(Phase Measuring Profilometry,PMP)的校正算法。该算法首先用PMP得到的亮度调制确定摄像头图像中
会议
水资源是人类赖以生存和发展的基础,是社会得以持续发展的保障。我国是淡水资源贫乏的国家之一,人均拥有水量仅是世界人均水量的四分之一,水资源短缺和水污染严重已经成为制约城
水稻是我国最重要的粮食作物,在水资源越来越短缺的形势下,对其实施由传统的丰水高产向节水高效的非充分灌溉转变是解决缺水问题的主要途径。而在非充分灌溉技术体系中,确定出水稻土壤水分最适点含水率和适宜控制范围,可为水稻节水灌溉中水分控制提供理论依据,对合理制定水稻节水型灌溉制度也具有重要的现实意义。通过分析淮安市淮阴区农田水利试验站田间试验观测数据,研究了节水灌溉条件下的水稻土壤水分最适点及水稻适宜控制
  针对不均衡数据分类中正类(少类)分类准确率低的问题,本文提出了一种新的集成采样技术以平衡正负类数据分布,进而提高正类分类准确率。首先采用偏置支持向量机对不均衡训练
随着电子信息技术和无线通信的不断发展,无线传感网络也得到了快速发展并且在工业控制、医学卫生和环境监测等领域中发挥了越来越重要的作用。新兴起的ZigBee技术对无线传感网
  目的:针对现有全变分偏微分方程复原模型存在"阶梯"现象的弱点,提出了一种改进的全有界变差四阶偏微分方程图像复原模型.方法:由于该模型的Euler-Lagrange方程是非线性偏微
会议
  随着三维(Three Dimensional,3D)数据采集、三维建模、计算机图形存储与显示技术的发展和互联网应用的普及,制作和传播3D模型也变得越来越方便.3D模型已逐渐渗入到我们的
会议