论文部分内容阅读
随着生物大数据的不断积累,人们已经获得了非常庞大数量的基因组信息,依靠较慢的生物实验分析和数理统计方法已不能满足基因预测的需要,这将会很大的影响到后续工作的顺利展开。我们需要引入更为先进的计算机专业的相关技术,从更高的层次来寻找样本数据内在的含义。如何能快速、准确的完成基因预测的任务成为了亟待解决的问题。深度学习目前已经在很多行业中有了大量的实际应用并取得了很好的应用效果,本文基于深度学习技术展开了研究,主要工作和成果如下:(1)使用甜橙线粒体基因组测序数据完成了其全基因组拼装和基因组注释工作。提出了一个基于卷积神经网络的 GEC-CNN(Gene Error Correction Convolutional Neural Network)基因序列纠错模型对甜橙线粒体基因序列进行纠错。完整的甜橙线粒体基因组已经提交给GenB ank数据库并被正式收录,NCBI登录号是NC037463。这将为芸香目(Rutales)植物的的分子鉴定,遗传多样性和系统发育分类等相关研究提供非常大的帮助。(2)本文提出了一个基于人工神经网络的GP-ANN网络模型(Gene Prediction Artificial Neural Network),对样本基因数据进行训练和预测,最终在测试集上取得了 95.87%的测试准确率。(3)本文提出了一个基于卷积神经网络的GP-CNN网络模型(Gene Prediction Convolutional Neural Network),对样本基因数据进行训练和预测,最终在测试集上取得了97.91%的测试准确率。