基于深度学习的基因组拼装和预测研究

来源 :南京林业大学 | 被引量 : 0次 | 上传用户:zsk1370826
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着生物大数据的不断积累,人们已经获得了非常庞大数量的基因组信息,依靠较慢的生物实验分析和数理统计方法已不能满足基因预测的需要,这将会很大的影响到后续工作的顺利展开。我们需要引入更为先进的计算机专业的相关技术,从更高的层次来寻找样本数据内在的含义。如何能快速、准确的完成基因预测的任务成为了亟待解决的问题。深度学习目前已经在很多行业中有了大量的实际应用并取得了很好的应用效果,本文基于深度学习技术展开了研究,主要工作和成果如下:(1)使用甜橙线粒体基因组测序数据完成了其全基因组拼装和基因组注释工作。提出了一个基于卷积神经网络的 GEC-CNN(Gene Error Correction Convolutional Neural Network)基因序列纠错模型对甜橙线粒体基因序列进行纠错。完整的甜橙线粒体基因组已经提交给GenB ank数据库并被正式收录,NCBI登录号是NC037463。这将为芸香目(Rutales)植物的的分子鉴定,遗传多样性和系统发育分类等相关研究提供非常大的帮助。(2)本文提出了一个基于人工神经网络的GP-ANN网络模型(Gene Prediction Artificial Neural Network),对样本基因数据进行训练和预测,最终在测试集上取得了 95.87%的测试准确率。(3)本文提出了一个基于卷积神经网络的GP-CNN网络模型(Gene Prediction Convolutional Neural Network),对样本基因数据进行训练和预测,最终在测试集上取得了97.91%的测试准确率。
其他文献
梅花鹿γ-干扰素是细胞因子超家族中干扰素家族的特殊重要成员之一,具有广泛的生物学功能。其功能的多样性是通过诱导细胞表达多种蛋白质实现的。对梅花鹿γ-干扰素的诱导与
从教材、教师以及教学方法三方面探讨了医学英语教学中存在的问题,然后提出了相应的改进策略,包括在日常教学中循序渐进地实现医学英语与公共英语的衔接;制订医学英语教学大
双语教学是医学教育中的重要内容,就人体寄生虫学双语教学的开展所涉及到的师资队伍、专业教材、实施的模式及方法等方面进行了探讨。
为了改变传统的教师"一言堂"的课堂教学模式,结合临床实际和医学热点问题,积极开展了由学生直接参与的专题或案例讨论教学.以此强化学生在教学中的主体作用,并促进教师教学水
药理学作为一门医学主干学科,应该应用双语教学的手段帮助学生深入理解知识,促进学生综合素质的提高。拟采用交又渗透型的方式实施药理学双语教学,同时采用自编教材、学生自愿选