论文部分内容阅读
长非编码RNA(Long Noncoding RNA,lncRNA)可以通过与不同类型的分子结合在生物过程中发挥作用。近年来,有关lncRNA、单核苷酸多态性(Single Nucleotide Polymorphism,SNP)及突变的研究越来越多,为了给lncRNA及其变异的研究提供资源,我们收集、整理并注释了完整的lncRNA上的功能性变异数据,包括SNP和癌症中的突变信息。SNP数据来源于NCBI的dbSNP数据库,突变数据来源于癌症基因组图谱(The Cancer Genome Atlas,TCGA)数据库以及癌症体细胞突变数据库(Catalogue of Somatic Mutations in Cancer,COSMIC)。利用上述公共数据库中的数据,我们最终鉴定了人类141,353条lncRNA的7,260,238个SNP以及小鼠117,405条lncRNA的3,921,448个SNP;人类lncRNA的859,534个来自COSMIC的非编码突变以及158,806个来源于TCGA的癌症相关的突变。除此之外,我们还预测了lncRNA序列上的潜在miRNA结合位点,收集了lncRNA在20种癌症的癌旁和癌症样本中的表达量,lncRNA相关的疾病信息,实验验证的lncRNA与miRNA的相互作用信息。对于上述收集的lncRNA上的SNP和突变信息,我们预测了这些变异对lncRNA二级结构和功能的影响,对lncRNA与miRNA相互作用的影响。同时,利用全基因组关联分析(Genome-wide association study,GWAS)数据库中的数据注释了发生在lncRNA上的位于tagSNP所在的连锁不平衡区域(Linkage Disequilibrium,LD)的SNP。最后,我们将上述所有lncRNA及其变异信息整合到了数据库中,并设计了一个开放性网站供研究人员使用,网址是:http://bioinfo.life.hust.edu.cn/lncRNASNP/。网站提供了lncRNA及其变异相关数据的浏览、查询以及部分数据下载功能。此外,我们还构建了两个预测工具,可以根据用户提供的lncRNA序列及相关的变异信息预测变异对lncRNA二级结构的影响以及对lncRNA上miRNA结合位点的影响。