论文部分内容阅读
DNA甲基化是一种重要的表观遗传修饰,在胚胎发育、染色体结构、X染色体失活、基因组印迹和染色体稳定性、细胞衰老以及疾病的发生和肿瘤的形成方面发挥着重要的调控作用。不同条件下的生物学样本之间存在的差异甲基区域,可能参与到基因表达的调控,进而影响基因功能。差异甲基化区域识别与通常意义上的特征选择有显著区别:通常的特征选择往往假定特征间无关联性,而CpG位点即特征在基因组空间中具有位置关联性。已有的研究表明,相对于单个位点独立的识别方法,针对整个区域的识别方法更有生物学上的价值。然而,现有差异甲基化区域识别方法存在一些问题,例如过度删除显著性弱的甲基化位点、区域长度受限以及不能直接处理多类别情况。针对这些问题,本文提出了三个差异甲基化区域识别算法,主要研究成果如下:第一,为了能直接处理多类别问题,本文提出了一种利用滑动窗口和KNN算法的差异甲基化区域识别算法。算法先通过滑动窗口和KNN分类器筛选基因组上存在的候选差异甲基化区域,然后合并满足分类误差率条件的候选区域得到差异甲基化区域。真实数据上的实验表明,算法的分类性能、聚类指数明显优于对照算法,扩展了对照算法识别的区域长度,并能识别对照方法未发现的差异甲基化区域。第二,针对本文提出的第一种方法存在两个候选差异甲基化区域在不满足拼接条件时将会丢失与候选区域相邻的位点这一问题,本文提出了一种基于贪心策略的差异甲基化区域识别算法。该方法是先利用滑动窗口和KNN分类器构建筛选候选区域模型,再采用贪心策略扩展候选区域长度得到差异甲基化区域。通过实验分析对比了算法的有效性和准确度,得出该方法表现更优,准确有效。第三,针对已发表和本文提出的前两个算法存在的一些问题,例如依赖分类器和需要预先设定实验参数,本文提出了一种基于聚类验证技术的启发式差异甲基化区域识别算法。该方法是运用聚类验证技术构建差异甲基化区域识别模型,然后利用贪心思想的启发式算法来优化从基因组上搜索差异甲基化位点子集,使得不同类别在该子集的维度空间中具有良好的可分性这一问题,从而通过求解差异甲基化位点子集得到差异甲基化区域。实验结果表明,该方法表现最优,且方法无参数,简单易用。