基于阿贝尔复杂度方法的全基因组DNA甲基化的预测

来源 :华中农业大学 | 被引量 : 0次 | 上传用户:magi9999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
虽然携带遗传信息的DNA序列在人类各组织细胞中几乎是不变的,但其上的表观遗传特征却表现出极大的差异性,这也被认为是导致基因表达细胞特异性的主要原因。在众多表观遗传特征中,DNA甲基化被认为是当前研究较为透彻的表观修饰现象之一。DNA甲基化水平的改变与基因的选择性表达与调控具有密不可分的关系,并且在基因印记、X染色体失活等过程中扮演关键作用。研究表明,基因的重要调控元件区域(如启动子)的非正常甲基化状态与包括癌症在内的各种疾病的发生密切相关,所以准确识别给定区域的甲基化水平,不仅有助于解析基因转录调控机制,而且还能为人类认识各种复杂疾病的形成机制提供帮助。早期研究者主要依赖各类实验方法测定DNA甲基化位点,但实验方法一方面耗时耗财,另一方面无法覆盖到全基因组层面。一个替代的策略是利用计算方法来推断目标位点的DNA甲基化水平。鉴于近年来机器学习的广泛应用,研究者们开始考虑利用机器学习算法对DNA甲基化位点构建预测模型。然而,基于机器学习的预测方法的成败非常依赖有效的特征提取算法。本研究提出一种称为“阿贝尔复杂度”的新颖的DNA序列特征提取算法,并基于此构建人类全基因组DNA甲基化的预测模型。我们首次将“词的组合”领域中一个新颖的数学概念-阿贝尔复杂度,应用于DNA序列的特征提取中。首先,考虑到以DNA甲基化位点为中心的窗口大小对预测准确性的影响,我们分染色体测试了100bp-2000bp(步长100bp,bp即base pair,碱基对)范围内的所有窗口大小,结合各条染色体上的预测结果发现窗口大小在1300bp时预测效果最佳。进一步,我们利用卡方统计量和互信息两个指标对1301维初始阿贝尔复杂度特征进行特征筛选,发现第14-50维是对模型贡献最大的阿贝尔复杂度特征。另外,DNA组分特征可以被定义为DNA序列的基础特征,而当综合阿贝尔复杂度特征和DNA组分特征时模型的预测能力得到了进一步的提升。最后,为了选择最适合的机器学习方法,本研究比较了支持向量机(support vector machine,SVM)、随机森林算法(Random Forest)、最邻近算法(K-nearest neighbors)和朴素贝叶斯算法(Na?ve Bayes)四种机器学习算法。在5类细胞系数据的测试中,结果发现SVM具有更高更稳定的预测效果。综上,本文首次应用阿贝尔复杂度方法提取DNA甲基化序列特征,并通过窗口大小选取、特征筛选过程选取第14-50维阿贝尔特征,最后结合SVM构建DNA甲基化预测模型。基于预测模型的全基因组扫描预测结果可以缩小或降低相关生物学实验的目标范围和难度,为相关实验提供了有力的参考和指导,有助于解析人类复杂疾病的转录调控机制和完善人类基因组功能元件的注释。
其他文献
纳米技术和生物技术的迅猛发展改变了人类医疗、通信等日常行为方式,这些技术在通信中的作用尤为明显。由于传统通信技术的收发器和其它组件尺寸、功耗不再适用于纳米网络,纳
21世纪人们已经全面进入了信息化时代,这也是继蒸汽时代,电气时代之后又一个伟大的时代,而信息传输主要依赖的是以半导体材料为基础的微电子电路技术。随着集成电路的发展,从
无线体域网(Wireless Body Area Network,WBAN)是一个运行在人体体内、体表、体外(十几厘米到几米范围)的短距离无线通信系统,包含各种类型传感器节点,这些节点采集人体参数
传统的卫星遥感与航空摄影由于成本高昂、使用灵活性较低、技术复杂使得应用受到很大的局限,近年来无人机航拍由于使用灵活、成本低、经济性较好得到了快速的普及应用。同时
脉诊是中医传统的诊断方法,是中医学“整体观”思想的具体体现。中医通过手指对脉搏搏动进行感知,依据脉诊经验对脉象进行辨证分析,以实现人体健康状态的评估判断。由于中医
眼底视网膜病变种类繁多,致病原因复杂。例如,糖尿病引起的糖尿病性黄斑水肿(Diabetic Macular Edema,DME),老年黄斑变性、变性近视、眼底血管样条纹导致的脉络膜新生血管(Choro
生命体就好比是一个复杂并且精确运行的工厂,而细胞作为完成生命活动的基础单元每时每刻都发挥着自己相应的作用。而活跃在各个细胞内的如活性氧化物、硫醇类物质等活性小分
榛子是一种既美味又营养丰富的干果类食物,深受广大消费者的喜爱,由于其外壳非常坚硬,因此消费者通常选择购买经过开口加工后的榛子。对于榛子的生产企业,在大批量对榛子开口
随着科学技术的迅速发展,微流控技术越来越广泛的应用于粒子的收集和精准操控。热驱动方式在粒子收集和操控技术中已经被证明是适用且高效的,而热浮力流就是其中一种。热浮力
空间信息传输技术是建设空间信息网络的重要环节,以激光作为信息载体的通信技术具有传输速率高、信息容量大、保密性强、抗干扰抗截获能力强等显著优势。激光通信终端要具备