基于计算智能方法的多茎环pre-miRNA预测研究

来源 :济南大学 | 被引量 : 2次 | 上传用户:cattlecattle
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
遗传信息DNA经过转录生成mRNA,mRNA在核糖体中经过翻译生成蛋白质,这就是长期以来人们对生物学中心法则的理解,但microRNA(miRNA)的发现却改变了人们对中心法则的最初认识。miRNA是一类重要的长度较短(约为21~23个核苷酸)的非编码RNA基因,通过碱基互补配对原则与靶标mRNA结合来决定分解还是抑止mRNA的翻译作用,进而起到影响基因表达的作用。最新研究发现,miRNA调控着人类约20%~30%的基因表达,miRNA不仅参与生理代谢、机体的生长和发育、细胞增殖与凋亡等,而且实验证明还与癌症的发生有着错综复杂的关系,因此深入研究miRNA将有助于人们深入了解基因调控网络的奥秘,同时也对生物进化的探索具有重要指导作用。我们的研究工作主要包括以下四个方面:(1)从miRBase数据库中提取了695条人类pre-miRNA样本,经过删除冗余的环节,最终剩余691条。从人类RefSeq基因中获取了8494条非冗余伪发夹序列,从Lander手动注明建立的人类非编码RNA数据库中提取了1020条(除miRNA)非编码RNA序列,删除冗余的和序列长度超过150个碱基的,剩余754条序列。针对我们建立的数据集不平衡问题,我们分别采用样本数据预处理方法和内部方法使阴阳性数据集达到平衡。(2)借鉴目前预测效果最好的miPred方法中采用的29维全局和内在特征,并在此基础上加入了19维理化和结构特征。选择最具区别度的特征能够减少系统复杂度提高我们预测模型的预测效率,所以我们采用包装和过滤方法对这48维样本特征进行最优特征选择,最终剩余21维特征,其中包括7维miPred特征和14维新引入的结构特征,这也证明我们新引入的结构特征比序列特征具有更高的区别度。(3)鉴于人工神经网络具有自学习、自适应与自组织的优点,所以我们首先选择人工神经网络模型进行预测,通过5折交叉验证,实验预测结果准确率为93.58%,明显高于triplet-SVM和MiPred等其它预测方法。(4)将神经网络预测模型对6095条其它(除人类)动物与miRBase中的139条病毒pre-miRNAs进行预测,预测准确率分别达到97.18%、94.24%,预测效果都得到了很大提高,证明我们构建的人工神经网络预测模型能够有效的预测miRNA,并为miRNA的预测提供了一条崭新的研究思路。
其他文献
近年来,随着众多P2P应用系统的出现,对等技术再一次成为研究的焦点。P2P基于对等的思想,具有很好的扩展性、健壮性、隐私性和高性能,在文件共享、分布式计算、协作系统、搜索
随着计算机技术与多媒体技术的迅猛发展,高等院校的教学形式和活动形式都发生了巨大的变化,无论是教学、会议、培训、活动都越来越依赖于多媒体的运用与支持。多媒体教学极大地
云计算是随着并行计算、网格计算、分布式计算等技术的发展与融合而产生的新技术,近年来许多IT巨头加大云计算的研究投入,随着市场的成熟,它的发展规模也越来越大,它在市场中的投
近些年来,随着网络技术和通信技术的不断发展以及用户对网络需求日益多样化。通过IP网络传输多媒体信息的技术也不断推陈出新,于是基于Internet网络的数字会议系统作为一种新
随着语义Web的深入研究发展,本体作为语义Web实现的关键,得到了广泛研究,出现了大量异构的、动态变化以及质量较差的本体,这些本体制约着语义Web的进一步发展。为了促进语义W
本文主要研究了基于符号计算求解两类孤立子方程的对称群及其算法。文中分别对微分差分方程和2+1维偏微分方程进行了研究,并总结出求解非线性微分方程完全群的算法步骤。第二
随着计算机产业的快速发展,软件的规模不断扩大,软件的测试工作也越来越复杂,如何提高测试的效率已成为被广泛关注的问题。形式化方法的研究和应用已有30多年的历史,它的优越
信息作为现代企业的宝贵资源,占据着越来越重要的地位。而数据仓库作为数据信息的载体,旨在通过通畅全面的信息管理,达到有效的决策支持。传统的数据仓库通常以支持企业内部
本文以集成供应链信息管理系统的协同生产管理系统CPMS(Cooperative Production Management System,CPMS)的研究开发为应用背景,采用协同计算方法和WSRF(Web Service Resourc
互联网的发展不断地影响着人们的生活,一些多媒体数据例如图片、视频、图像、音频数据等都可以从互联网上很容易下载下来。但是,多媒体数据和文本数据一样有版权归属问题,人们在