论文部分内容阅读
人类基因组测序计划的研究表明,在人类基因组中,仅有不到全部基因组序列2%的基因具有编码蛋白质的功能,其余是缺乏蛋白质编码能力的,这在早期曾被认为是“垃圾基因”,直到2004年才有研究学者发现所谓“垃圾基因”序列中可能暗藏着大量的DNA调控元件、转座子和非编码RNA基因。在DNA元件百科全书(Encyclopedia Of DNA Elements,简称为ENCODE项目)完成后,人们进一步发现大部分DNA序列能够被转录成RNA,其中大部分的转录产物为非编码RNA,而在非编码RNA中,绝大多数的转录本是长度大于200个碱基的长非编码RNA。近些年来,研究者们对这些长非编码RNA的研究持续升温,研究结果表明长非编码RNA能够在转录及转录后水平上调节蛋白编码基因的表达,从而广泛地参与包括细胞分化、个体发育在内的重要生命过程,其异常表达还与多种人类重大疾病的发生密切相关。但目前还有大量的长非编码RNA没有被识别出来,所以如何将长非编码RNA从大量的转录本中快速而准确的挑选出来是一件非常值得研究的课题。本文使用计算机的方法来对长非编码RNA进行预测识别,相较于生物学的方法,极大地提高了识别效率。现有的长非编码RNA预测研究中,主要有三个问题:一是很多预测方法过于依赖现有物种蛋白质编码库,一旦当前物种对应的蛋白质编码库数据较少就会影响最终的识别结果。二是一旦测序过程中存在一些序列错误,大多数预测方法的识别率就会大大降低,而测序过程中的序列错误几乎是不可避免的。三是在特征提取中未能统计到序列的位置相关信息,大多是核苷酸含量或组合的特征。为了解决上述问题,本文首先对长非编码RNA与编码RNA序列的特征进行分析,提取出两大类特征,分别是生物特征类和序列结构特征类,其中生物特征类中包含开放阅读框特征和聚合体特征,序列结构特征类中包含k-mer特征、Fickett特征和位置权重矩阵特征,这种特征提取方式不依赖于蛋白编码库,也有一定的容错性。在特征提取中我们首次使用位置权重矩阵的方法来提取核苷酸的位置特征,并在实验中取得了较好的结果。为了提升预测方法的训练速度并减少特征空间维度,本文在特征选择阶段依次使用包装法和过滤法进行特征选择,经过特征选择后我们得到了数量较少的具有代表性的特征。接下来,我们分别使用了支持向量机、随机森林和BP神经网络这几种机器学习方法对训练集进行训练分类,并使用网格遍历方法对分类器模型参数进行选取,经实验对比后,选择支持向量机作为模型的分类器进行长非编码RNA的预测,实验证明预测模型效果较优。在构建本文的长非编码RNA预测模型时,我们使用十折交叉验证对预测模型在训练集上进行了验证,最终在测试集上取得了较高的准确率和一致性。与之前的长非编码RNA预测方法相比较,本文的预测结果也具有较大的优势,且本文方法是不依赖于相应物种蛋白质编码库的。在跨物种的数据集上进行实验,结果表明本文算法也具有一定的普适性。