两核苷酸实时合成测序信息分析

来源 :东南大学 | 被引量 : 1次 | 上传用户:wlf844767898
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现有的基于实时合成测序技术是利用天然核苷酸合成,通过检测合成副产物来实现序列测定的,其测序过程快,具有高度的可重复性、并行性和容易自动化等特点。然而,对任一DNA测序模板而言,这类测序方法不是每个测序反应都能测定具体的碱基信息,将影响到单个测序反应的效率,继而影响测序阅读长度。最近,提出一种两核苷酸实时合成测序的新方法,该方法基于不同核苷酸参与的合成反应、产生检测分子均相同的原理,对DNA模板通过实施两次不同两核苷酸的循环合成测序,最后解码组装出待测DNA模板的准确碱基信息。本论文对两核苷酸实时合成测序伴生的生物信息学问题进行研究,为两核苷酸实时合成测序提供软件支撑。  本论文的主要内容如下:  1、编码及解码算法研究  基于两核甘酸实时合成测序原理,设计了三种编码解码算法,即:字符编码解码算法、一阶模式编码解码算法、按位编码解码算法。实现的三种编码解码算法在模拟数据集中测试通过。在这个模拟数据集中,首先模拟出1000条随机生成的长度为1000bp的DNA序列,并生成三组测序编码信息。对于每条DNA序列,随机抽取两条编码序列按照相对应的解码算法进行解码,然后将解码出来的DNA序列与原先模拟的序列进行比较。最后在这1000条DNA序列的测试中得到了100%的解码正确率。  2、测序模拟算法的研究  两核苷酸实时合成测序方法并没有从本质上改变信号强度的产生机制,获取及评估,因此其信号强度的统计分布与其基于的测序平台是一样。通过对454测序平台信号强度的统计分布研究,建立了基于454测序平台的两核苷酸实时合成测序模型,该模型采用正态分布模拟正信号,对数正态分布模拟负信号。基于ART测序模拟算法实现了另一种两核苷酸实时合成测序模拟算法,该算法首先对基因组序列随机片段化来模拟序列复制过程,然后根据经验分布实现测序过程模拟。上述两种模拟算法通过测试数据集模拟结果表明,“同聚物”或“类同聚物”长度越长,测序质量越小,测序误差越大,实现了两核苷酸测序的简单模拟过程,对于评价两核苷酸实时合成测序的数据处理算法的有效性与精确性以及预测两核苷酸实时循环合成测序信息提供了理论支持。  3、测序数据处理  ①重测序序列比对算法的研究  两核苷酸实时合成测序中存在“同聚物”及“类同聚物”问题,采用传统的序列比对算法,将会有假匹配的产生,进而影响下游分析。本课题设计了两种基于Smith-Waterman-Gotoh具有识别“同聚物”和“类同聚物”能力的比对算法:Homopolymer-Aware-Smith-Waterman-Gotoh算法和Peaks-Aware-Smith-Waterman-Gotoh算法。Homopolymer-Aware-Smith-Waterman-Gotoh算法将“同聚物”或“类同聚物”作为一个单元对待,对于更长的同聚物片段采用更小的空位罚分,同聚物罚分函数是一次线性递减函数。Peaks-Aware-Smith-Waterman-Gotoh算法利用Peak峰值来提高序列比对的质量,其罚分函数并不与Homopolymer-Aware-Smith-Waterman-Gotoh算法一样是一次线性函数。两种算法的同聚物罚分都是根据参考序列提前设定。结果表明两比对算法都能很好的识别“同聚物”和“类同聚物”,实现序列的有效匹配,有效的防止假匹配的产生。为了提高序列比对的性能又不失Smith-Waterman-Gotoh算法的精确度,本课题采用的策略是首先采用与SSAHA类似的算法完成基因组哈希表的建立及短序列种子序列的定位,最后利用上述两种具有识别“同聚物”和“类同聚物”能力的Smith-Waterman-Gotoh比对算法中的任意一种进行延伸序列比对得出有效比对结果。  ②反向互补序列算法研究  高通量测序将DNA双链均进行了测定,因此其中一条DNA单链不能直接用于比对,需要涉及到序列之间的反向互补转化。本课题简单实现了此算法,且该算法在模拟数据集中测试通过。  4、特征分析算法研究  两核苷酸实时合成测序从理论上表明具有和SOLiDTM类似的区分真正“SNP”和“测序错误”的特征。本课题运用该理论特征,设计完成了两核苷酸实时合成测序特征分析算法,该算法首先识别出序列两两比对中的所有非匹配位点,并排除这些非匹配位点中无效位点,然后通过设置测序质量阈值,相邻位点的平均测序质量阈值,距比对序列末端距离阈值,非匹配位点的比对质量阈值进一步排除不符合要求的非匹配位点,最后,运用两核苷酸实时合成测序中具有的区分真正“SNP”和“测序错误”的特征,进一步优化。通过模拟数据集中测试表明,该算法具有区分真正“SNP”和“测序错误”的能力。
其他文献
随着我国经济的飞速发展,汽车已经成为人们必不可少的交通工具.随着我国科学技术的不断进步,我国国产汽车的品牌也日益剧增,无论是传统汽油汽车还是新能源汽车,近些年都取得
新课标下,小学英语口语交际教学中学生口语交际能力的强化培养,需要教师们付出更多的努力.通过创新教学理念、展开趣味教学、主动联系生活等,让孩子们真正爱上口语交际,自信
资源关系到一个国家或社会发展的方方面面,对经济也有重要的影响.以前大都认为资源对经济有着巨大的促进作用,但这一认识在20世纪后期却有了明显的反差,许多国家自身资源相对
小学语文低段是识字教学的重要时期,基于小学低段学生的特点,我们在指导学科教学活动的过程中,应该合理选择识字教学方法,降低识字难度,强化学生记忆.字理识字教学法比较适合
小学生处于英语教育的初级阶段,英语教育为学生的英语知识和基本应用技能奠定了基础.但是,小学英语不太涉及英语语法内容等复杂的知识点.进入中学英语学习阶段后,很难适应英
品牌是一个企业的文化、价值观念,是企业重要的无形资产.同时,品牌的开发建设也是一个企业提高竞争力的有效手段.本文通过对企业文化与品牌开发之间的关系,为企业的发展确定
在高中阶段的体育课程领域,短跑是一项重要的运动项目,同时也是实现学生体能强化训练的重要运动载体.短跑教学所呈现的质量是决定学生体能素质建设的关键要素,在具体实施短跑
水肿是由于人体的组织间隙积聚过多的体液而形成的,其通常反映着其他疾病的产生,如心脏衰竭、肌肉瘫痪等疾病,因此水肿的检测具有重要的临床意义。目前临床上对水肿的诊断方
目前,我国社会的进步已经带动了社会对人才的要求提升,因此,成人高等教育的市场也越来越大.随着我国成人高等教育体制越来越成熟,成人高等教育出现了新的途径.校企合作形式是
随着电子商务与互联网零售业的发展,网络购物这种新型的消费模式逐渐受到追捧。然而许多现存的网络零售店存在质量差、服务不到位、商品描述与真实不匹配等问题,虚拟试戴技术