论文部分内容阅读
随着高通量测序技术的快速发展,海量的基因测序数据被相关基因数据库收录,如何对这些海量的基因序列数据进行挖掘和分析是当前生物信息领域面临的重要问题。长链非编码RNA(Lnc RNA)作为一类重要的RNA分子,在人类各项生命活动中起着重要作用,如何准确识别Lnc RNA是当前生物信息学研究的热门问题。癌症是一类严重威胁当代人类健康的疾病,而Lnc RNA广泛参与癌症的发生和发展,识别癌症相关Lnc RNA,对于研究基因与癌症的关联关系以及诊断治疗癌症的有效生物标志物和靶标具有重要意义。本文基于人工智能领域先进的机器学习和深度学习算法,针对一般Lnc RNA识别以及癌症相关Lnc RNA识别展开相关研究。本文的研究工作和创新内容包括以下三个部分:(1)提出了AdaBoost-DT集成分类模型识别Lnc RNA。该方法基于AdaBoost集成学习结合决策树算法,通过整合转录本序列长度、GC含量及k-mer子序列频率这三类特征,构建的AdaBoost-DT集成分类模型识别Lnc RNA,在测试集上达到87.28%的识别准确率,高于其他采用传统机器学习算法的识别方法,具有较好的识别准确率。(2)基于卷积神经网络分类模型提出了一种有效的Lnc RNA识别方法——Lnc-CNN。Lnc-CNN方法通过对RNA序列数据集进行one-hot编码输入卷积神经网络,训练得到CNN分类模型,对RNA序列进行识别。Lnc-CNN方法不需要人工提取特征,降低了实验过程复杂度,提高了识别结果的准确率,在来源于GENCODE基因数据库的测试集上达到92.27%的识别准确率,识别准确率相比采用传统机器学习算法的AdaBoost集成学习识别方法提高7.87%,该方法对序列长度不是过短的RNA序列均有非常好的识别效果。(3)基于AdaBoost-DT集成分类模型提出了一种名为“Can Lnc-ADT”的癌症相关Lnc RNA识别方法。该方法整合表达特征、表观遗传特征、基因组特征和网络特征四类转录本序列特征,基于AdaBoost-DT集成分类模型识别癌症相关Lnc RNA,在测试数据集上达到94.32%的识别准确率,相比CRlnc RC、CRlnc RC2等最新的癌症相关Lnc RNA识别方法,识别准确率分别提高3.75%和2.71%。本文提出的AdaBoost-DT集成分类模型和Lnc-CNN方法均能有效识别Lnc RNA,为进一步研究Lnc RNA功能奠定基础。提出的Can Lnc-ADT方法可以准确识别癌症相关Lnc RNA,对进一步研究Lnc RNA在癌症发生和发展中的作用也具有重要意义。