论文部分内容阅读
虽然携带遗传信息的DNA序列在人类各组织细胞中几乎是不变的,但其上的表观遗传特征却表现出极大的差异性,这也被认为是导致基因表达细胞特异性的主要原因。在众多表观遗传特征中,DNA甲基化被认为是当前研究较为透彻的表观修饰现象之一。DNA甲基化水平的改变与基因的选择性表达与调控具有密不可分的关系,并且在基因印记、X染色体失活等过程中扮演关键作用。研究表明,基因的重要调控元件区域(如启动子)的非正常甲基化状态与包括癌症在内的各种疾病的发生密切相关,所以准确识别给定区域的甲基化水平,不仅有助于解析基因转录调控机制,而且还能为人类认识各种复杂疾病的形成机制提供帮助。早期研究者主要依赖各类实验方法测定DNA甲基化位点,但实验方法一方面耗时耗财,另一方面无法覆盖到全基因组层面。一个替代的策略是利用计算方法来推断目标位点的DNA甲基化水平。鉴于近年来机器学习的广泛应用,研究者们开始考虑利用机器学习算法对DNA甲基化位点构建预测模型。然而,基于机器学习的预测方法的成败非常依赖有效的特征提取算法。本研究提出一种称为“阿贝尔复杂度”的新颖的DNA序列特征提取算法,并基于此构建人类全基因组DNA甲基化的预测模型。我们首次将“词的组合”领域中一个新颖的数学概念-阿贝尔复杂度,应用于DNA序列的特征提取中。首先,考虑到以DNA甲基化位点为中心的窗口大小对预测准确性的影响,我们分染色体测试了100bp-2000bp(步长100bp,bp即base pair,碱基对)范围内的所有窗口大小,结合各条染色体上的预测结果发现窗口大小在1300bp时预测效果最佳。进一步,我们利用卡方统计量和互信息两个指标对1301维初始阿贝尔复杂度特征进行特征筛选,发现第14-50维是对模型贡献最大的阿贝尔复杂度特征。另外,DNA组分特征可以被定义为DNA序列的基础特征,而当综合阿贝尔复杂度特征和DNA组分特征时模型的预测能力得到了进一步的提升。最后,为了选择最适合的机器学习方法,本研究比较了支持向量机(support vector machine,SVM)、随机森林算法(Random Forest)、最邻近算法(K-nearest neighbors)和朴素贝叶斯算法(Na?ve Bayes)四种机器学习算法。在5类细胞系数据的测试中,结果发现SVM具有更高更稳定的预测效果。综上,本文首次应用阿贝尔复杂度方法提取DNA甲基化序列特征,并通过窗口大小选取、特征筛选过程选取第14-50维阿贝尔特征,最后结合SVM构建DNA甲基化预测模型。基于预测模型的全基因组扫描预测结果可以缩小或降低相关生物学实验的目标范围和难度,为相关实验提供了有力的参考和指导,有助于解析人类复杂疾病的转录调控机制和完善人类基因组功能元件的注释。