论文部分内容阅读
piRNA是于2006年发现的一种非编码小RNA,目前认为piRNA的生物合成主要有两条途径,分别为在生殖细胞和体细胞中的生物合成,在生殖细胞中,piRNA首先产生前体序列,之后通过"乒乓模型"进行扩增;在体细胞中,piRNA前体在相关蛋白酶的作用下产生初级piRNA。目前关于piRNA的生物学功能主要有如下几点;沉默转录基因过程,在对果蝇和大鼠的研究中,均有证据表明piRNA参与沉默转录基因过程;维持生殖系与干细胞功能,piRNA在生殖细胞及干细胞中会抑制转座子的转座过程,来维持其细胞功能;调节翻译和mRNA的稳定性,有研究表明在特定的组织或发育阶段piRNA会对蛋白质编码基因表达具有调控功能;此外,piRNA会引导表观遗传机制。piRNA的序列特征目前认为主要有:piRNA的序列长度长于miRNA和siRNA,其长度大约在26~31nt左右;大部分的piRNA在基因组上形成簇状结构;piRNA序列5 ’端具有强烈的尿嘧啶偏向性。目前,piRNA的发现依赖于复杂的分子生物学流程,而针对piRNA的生物信息学预测算法偏少,而且准确度不高。为此,本论文利用piRNA与转座子相互结合的特征信息,采用支持向量机(SVM)作为分类器,成功开发了基于转座子信息的piRNA预测算法。用于算法开发的数据收集:分别从UCSC Genome Browser和NONCODE数据库中下载到果蝇、人、大鼠、小鼠四个物种的转座子序列和人、大鼠、小鼠的piRNA序列,从NCBI网站上下载到果蝇的piRNA数据。共收集到piRNA序列条数为:果蝇:13,848条;人:32,152条;大鼠:66,758条;小鼠:75,814条。本工作将果蝇piRNA作为分离器训练数据。模型训练需要的负数据集根据下列规则构建:1)可以不完全匹配上果蝇转座子序列;2)从果蝇其他非编码RNA序列随机截取;3)与真实piRNA的长度分布一致。其中用于模型训练的正数据集共有9,758条序列,负数据集共有9,240条序列。piRNA序列特征提取:利用piRNA与转座子相互结合的结构信息,使用SeqMap和RNAplex软件,提取出Triplet结构信息,用于SVM模型训练。模型训练及测试:使用网格搜索法进行了 SVM分类器的参数优化,并采用10倍交叉法对SVM分类器进行训练和评估,得到piRNA顸测算法,命名为piRNA annotation software(Piano)。交叉验证的结果为:sensitivity 大于 95%,specificity 大于93%,precision大于93%,从交叉验证的结果我们可以看出Piano算法对piRNA具有很好的识别能力。将此模型对人、大鼠和小鼠的piRNA序列进行识别,也表现出了良好的识别能力,其识别率分别为人(2,248条):93.50%;大鼠(2,132条):88.98%;小鼠(1,931 条):89.18%。应用Piano算法对二化螟小RNA数据进行piRNA预测,共得到82,639条piRNA,并对这些序列的序列长度,5’端尿嘧啶偏向性,piRNA序列靶标位点,序列碱基组成进行了统计分析。结果表明昆虫的piRNA序列在序列长度方面与哺乳动物的piRNA序列有明显的不同,相比于昆虫的piRNA序列而言,哺乳动物的piRNA序列具有更高的5’尿嘧啶偏向性,哺乳动物与昆虫的靶序列位点具有相同的趋势,均在LINE和SINE两种类型转座子上具有较多的靶位点,在序列碱基成分上,昆虫与哺乳动物piRNA序列均为表现出明显的特征。