差异甲基化区域识别算法研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:NET399
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
DNA甲基化是一种重要的表观遗传修饰,在胚胎发育、染色体结构、X染色体失活、基因组印迹和染色体稳定性、细胞衰老以及疾病的发生和肿瘤的形成方面发挥着重要的调控作用。不同条件下的生物学样本之间存在的差异甲基区域,可能参与到基因表达的调控,进而影响基因功能。差异甲基化区域识别与通常意义上的特征选择有显著区别:通常的特征选择往往假定特征间无关联性,而CpG位点即特征在基因组空间中具有位置关联性。已有的研究表明,相对于单个位点独立的识别方法,针对整个区域的识别方法更有生物学上的价值。然而,现有差异甲基化区域识别方法存在一些问题,例如过度删除显著性弱的甲基化位点、区域长度受限以及不能直接处理多类别情况。针对这些问题,本文提出了三个差异甲基化区域识别算法,主要研究成果如下:第一,为了能直接处理多类别问题,本文提出了一种利用滑动窗口和KNN算法的差异甲基化区域识别算法。算法先通过滑动窗口和KNN分类器筛选基因组上存在的候选差异甲基化区域,然后合并满足分类误差率条件的候选区域得到差异甲基化区域。真实数据上的实验表明,算法的分类性能、聚类指数明显优于对照算法,扩展了对照算法识别的区域长度,并能识别对照方法未发现的差异甲基化区域。第二,针对本文提出的第一种方法存在两个候选差异甲基化区域在不满足拼接条件时将会丢失与候选区域相邻的位点这一问题,本文提出了一种基于贪心策略的差异甲基化区域识别算法。该方法是先利用滑动窗口和KNN分类器构建筛选候选区域模型,再采用贪心策略扩展候选区域长度得到差异甲基化区域。通过实验分析对比了算法的有效性和准确度,得出该方法表现更优,准确有效。第三,针对已发表和本文提出的前两个算法存在的一些问题,例如依赖分类器和需要预先设定实验参数,本文提出了一种基于聚类验证技术的启发式差异甲基化区域识别算法。该方法是运用聚类验证技术构建差异甲基化区域识别模型,然后利用贪心思想的启发式算法来优化从基因组上搜索差异甲基化位点子集,使得不同类别在该子集的维度空间中具有良好的可分性这一问题,从而通过求解差异甲基化位点子集得到差异甲基化区域。实验结果表明,该方法表现最优,且方法无参数,简单易用。
其他文献
招标控制价[1]是招标人对招标工程的最高控制值,超过控制价的投标报价应予以拒绝,以预防和遏制投标人哄抬价格等违规行为。招标控制价作为招投标领域的新生事物,其颁布和实施究
目的探讨双黄连口服液在青年急性上呼吸道感染中的疗效。方法选择我院2012年9月至2013年11月急性上呼吸道感染患者共78例,上述患者随机分为观察组和对照组。对照组给予日夜百
当前,互联网是舆论斗争的主战场,新媒体平台已经成为争夺重镇,因此,军队新闻机构要在新媒体上积极实践与探索。本文结合军事新闻机构与军事传播自媒体的实践,总结了军事宣传
商标零翻译是商标翻译中的重要方式,在保留商标源语的异域风情方面有其独到的优势,但受到译者专业知识及发挥其主体性的程度差别较大的影响,还缺乏系统的指导性翻译原则。以
目的分析研究蛛网膜下腔出血并发症的预防方法以及预防效果。方法选取院方2011年6月至2012年3月90例蛛网膜下腔出血患者作为研究对象,并且分为两组,进行预防并发症的比较,两
《内经》有关五脏咳传变规律的论述与临床咳病的发病规律有异,即五脏咳不一定是咳病的初期阶段,五脏久咳未必移于六腑,五脏久咳可以引起脏脏相连。
2013年11月中共第十八届三中全会通过的《中共中央关于全面深化改革若干重大问题的决定》对当前我国农村工作提出了前瞻性和创新性政策指引,指明了未来一段时间我国农村改革发
自从证实真性红细胞增多症高发JAK2基因突变(JAK2 V617F),对真性红细胞增多症的理解真正获得了突破而进入全新的分子时代。本文就JAK2 V617F突变对真性红细胞增多症诊断及治
为了研究碳纤维增强复合材料(CFRP)在雷电流作用下的损伤规律,对CFRP进行了雷电流直接效应实验和电-热耦合效应仿真。首先,利用冲击电流发生装置进行了雷电流的直接效应实验,
目的:分析关于"烧山火"针法的相关文献,了解关于烧山火针法的研究现状,为以后的研究提供理论基础。方法:查阅PubMed(-~2012)、中国生物医学文献数据库(CBM,-~2012)、中国期刊全