论文部分内容阅读
遗传信息DNA经过转录生成mRNA,mRNA在核糖体中经过翻译生成蛋白质,这就是长期以来人们对生物学中心法则的理解,但microRNA(miRNA)的发现却改变了人们对中心法则的最初认识。miRNA是一类重要的长度较短(约为21~23个核苷酸)的非编码RNA基因,通过碱基互补配对原则与靶标mRNA结合来决定分解还是抑止mRNA的翻译作用,进而起到影响基因表达的作用。最新研究发现,miRNA调控着人类约20%~30%的基因表达,miRNA不仅参与生理代谢、机体的生长和发育、细胞增殖与凋亡等,而且实验证明还与癌症的发生有着错综复杂的关系,因此深入研究miRNA将有助于人们深入了解基因调控网络的奥秘,同时也对生物进化的探索具有重要指导作用。我们的研究工作主要包括以下四个方面:(1)从miRBase数据库中提取了695条人类pre-miRNA样本,经过删除冗余的环节,最终剩余691条。从人类RefSeq基因中获取了8494条非冗余伪发夹序列,从Lander手动注明建立的人类非编码RNA数据库中提取了1020条(除miRNA)非编码RNA序列,删除冗余的和序列长度超过150个碱基的,剩余754条序列。针对我们建立的数据集不平衡问题,我们分别采用样本数据预处理方法和内部方法使阴阳性数据集达到平衡。(2)借鉴目前预测效果最好的miPred方法中采用的29维全局和内在特征,并在此基础上加入了19维理化和结构特征。选择最具区别度的特征能够减少系统复杂度提高我们预测模型的预测效率,所以我们采用包装和过滤方法对这48维样本特征进行最优特征选择,最终剩余21维特征,其中包括7维miPred特征和14维新引入的结构特征,这也证明我们新引入的结构特征比序列特征具有更高的区别度。(3)鉴于人工神经网络具有自学习、自适应与自组织的优点,所以我们首先选择人工神经网络模型进行预测,通过5折交叉验证,实验预测结果准确率为93.58%,明显高于triplet-SVM和MiPred等其它预测方法。(4)将神经网络预测模型对6095条其它(除人类)动物与miRBase中的139条病毒pre-miRNAs进行预测,预测准确率分别达到97.18%、94.24%,预测效果都得到了很大提高,证明我们构建的人工神经网络预测模型能够有效的预测miRNA,并为miRNA的预测提供了一条崭新的研究思路。