基于位置权重矩阵的长非编码RNA预测方法研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:lovelyhuanhuan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人类基因组测序计划的研究表明,在人类基因组中,仅有不到全部基因组序列2%的基因具有编码蛋白质的功能,其余是缺乏蛋白质编码能力的,这在早期曾被认为是“垃圾基因”,直到2004年才有研究学者发现所谓“垃圾基因”序列中可能暗藏着大量的DNA调控元件、转座子和非编码RNA基因。在DNA元件百科全书(Encyclopedia Of DNA Elements,简称为ENCODE项目)完成后,人们进一步发现大部分DNA序列能够被转录成RNA,其中大部分的转录产物为非编码RNA,而在非编码RNA中,绝大多数的转录本是长度大于200个碱基的长非编码RNA。近些年来,研究者们对这些长非编码RNA的研究持续升温,研究结果表明长非编码RNA能够在转录及转录后水平上调节蛋白编码基因的表达,从而广泛地参与包括细胞分化、个体发育在内的重要生命过程,其异常表达还与多种人类重大疾病的发生密切相关。但目前还有大量的长非编码RNA没有被识别出来,所以如何将长非编码RNA从大量的转录本中快速而准确的挑选出来是一件非常值得研究的课题。本文使用计算机的方法来对长非编码RNA进行预测识别,相较于生物学的方法,极大地提高了识别效率。现有的长非编码RNA预测研究中,主要有三个问题:一是很多预测方法过于依赖现有物种蛋白质编码库,一旦当前物种对应的蛋白质编码库数据较少就会影响最终的识别结果。二是一旦测序过程中存在一些序列错误,大多数预测方法的识别率就会大大降低,而测序过程中的序列错误几乎是不可避免的。三是在特征提取中未能统计到序列的位置相关信息,大多是核苷酸含量或组合的特征。为了解决上述问题,本文首先对长非编码RNA与编码RNA序列的特征进行分析,提取出两大类特征,分别是生物特征类和序列结构特征类,其中生物特征类中包含开放阅读框特征和聚合体特征,序列结构特征类中包含k-mer特征、Fickett特征和位置权重矩阵特征,这种特征提取方式不依赖于蛋白编码库,也有一定的容错性。在特征提取中我们首次使用位置权重矩阵的方法来提取核苷酸的位置特征,并在实验中取得了较好的结果。为了提升预测方法的训练速度并减少特征空间维度,本文在特征选择阶段依次使用包装法和过滤法进行特征选择,经过特征选择后我们得到了数量较少的具有代表性的特征。接下来,我们分别使用了支持向量机、随机森林和BP神经网络这几种机器学习方法对训练集进行训练分类,并使用网格遍历方法对分类器模型参数进行选取,经实验对比后,选择支持向量机作为模型的分类器进行长非编码RNA的预测,实验证明预测模型效果较优。在构建本文的长非编码RNA预测模型时,我们使用十折交叉验证对预测模型在训练集上进行了验证,最终在测试集上取得了较高的准确率和一致性。与之前的长非编码RNA预测方法相比较,本文的预测结果也具有较大的优势,且本文方法是不依赖于相应物种蛋白质编码库的。在跨物种的数据集上进行实验,结果表明本文算法也具有一定的普适性。
其他文献
中国共产党始终高度重视思想政治教育,这既是我党政治优势,也是我党的优良传统。随着时代的发展,获取信息的途径不断增加,人们的思想、文化、意识等多呈现出多元化多样性。因
自元朝起,康区一直由土司和寺庙维系当地的秩序。1906年至1911年,赵尔丰及其继任者傅嵩炑相继在康区实施改土归流,将土司和寺庙的特权一并取缔,康区社会动荡不宁之际,辛亥革
作为一门非常注重实践和理论结合的学科,化学需要从不同的角度和阶段为出发点,引入化学的知识进行教学才能够有效的提高化学教学工作目的。实施高中化学课程的新课改要求首先
过去二十年里,过渡金属催化或者促进C–H键的转化作为一种步骤简单、原子经济的方法被广泛地应用于有机复杂分子的合成中。与传统的交叉偶联相比,导向基团辅助的C–H键活化以
宏基因组学直接从环境样品中获取全部微生物的DNA,无需经历人工纯培养阶段,在微生物的研究中发挥了不可替代的作用,给微生物领域的研究带来了新的发现。由于直接从环境样本中
Peer-to-Peer(P2P)覆盖网络架构自被提出以来就备受关注,但由于网络地址转换(Network Address Translator,NAT)设备的出现使得节点之间难以直接通信。同时,P2P网络架构分散与
股权代持是近年来公司法理论中极具研究价值的主题,其作为体现商事自由最大化的一种投资手段,存在于我国公司法实务中已是不争的事实。近年来,股权代持协议被认定为无效的案
近年来,我国频发各种大型自然灾害,包括2008年的汶川地震、2014年的“威马逊”台风、2016年长江流域的水灾等,自然灾害给国家和社会造成巨大损失的同时,也给受灾人员带来了巨
固定翼航空系统飞行探测过程中,当飞行器受到的风向、风速、气流等外界干扰较小,飞行速度一致,按照设计测线飞行时,称为平稳飞行状态。但在实际飞行过程中飞行器大多处于非平
起伏地表(黄土塬、沙漠和山地)进行三维地震勘探资料采集,不但要避开地表障碍,还要避开高海拔峰顶和陡坡(即:避高、避陡)。本论文以内蒙沙漠区GZH三维勘探工区避高、避陡部署