论文部分内容阅读
现有的基于实时合成测序技术是利用天然核苷酸合成,通过检测合成副产物来实现序列测定的,其测序过程快,具有高度的可重复性、并行性和容易自动化等特点。然而,对任一DNA测序模板而言,这类测序方法不是每个测序反应都能测定具体的碱基信息,将影响到单个测序反应的效率,继而影响测序阅读长度。最近,提出一种两核苷酸实时合成测序的新方法,该方法基于不同核苷酸参与的合成反应、产生检测分子均相同的原理,对DNA模板通过实施两次不同两核苷酸的循环合成测序,最后解码组装出待测DNA模板的准确碱基信息。本论文对两核苷酸实时合成测序伴生的生物信息学问题进行研究,为两核苷酸实时合成测序提供软件支撑。 本论文的主要内容如下: 1、编码及解码算法研究 基于两核甘酸实时合成测序原理,设计了三种编码解码算法,即:字符编码解码算法、一阶模式编码解码算法、按位编码解码算法。实现的三种编码解码算法在模拟数据集中测试通过。在这个模拟数据集中,首先模拟出1000条随机生成的长度为1000bp的DNA序列,并生成三组测序编码信息。对于每条DNA序列,随机抽取两条编码序列按照相对应的解码算法进行解码,然后将解码出来的DNA序列与原先模拟的序列进行比较。最后在这1000条DNA序列的测试中得到了100%的解码正确率。 2、测序模拟算法的研究 两核苷酸实时合成测序方法并没有从本质上改变信号强度的产生机制,获取及评估,因此其信号强度的统计分布与其基于的测序平台是一样。通过对454测序平台信号强度的统计分布研究,建立了基于454测序平台的两核苷酸实时合成测序模型,该模型采用正态分布模拟正信号,对数正态分布模拟负信号。基于ART测序模拟算法实现了另一种两核苷酸实时合成测序模拟算法,该算法首先对基因组序列随机片段化来模拟序列复制过程,然后根据经验分布实现测序过程模拟。上述两种模拟算法通过测试数据集模拟结果表明,“同聚物”或“类同聚物”长度越长,测序质量越小,测序误差越大,实现了两核苷酸测序的简单模拟过程,对于评价两核苷酸实时合成测序的数据处理算法的有效性与精确性以及预测两核苷酸实时循环合成测序信息提供了理论支持。 3、测序数据处理 ①重测序序列比对算法的研究 两核苷酸实时合成测序中存在“同聚物”及“类同聚物”问题,采用传统的序列比对算法,将会有假匹配的产生,进而影响下游分析。本课题设计了两种基于Smith-Waterman-Gotoh具有识别“同聚物”和“类同聚物”能力的比对算法:Homopolymer-Aware-Smith-Waterman-Gotoh算法和Peaks-Aware-Smith-Waterman-Gotoh算法。Homopolymer-Aware-Smith-Waterman-Gotoh算法将“同聚物”或“类同聚物”作为一个单元对待,对于更长的同聚物片段采用更小的空位罚分,同聚物罚分函数是一次线性递减函数。Peaks-Aware-Smith-Waterman-Gotoh算法利用Peak峰值来提高序列比对的质量,其罚分函数并不与Homopolymer-Aware-Smith-Waterman-Gotoh算法一样是一次线性函数。两种算法的同聚物罚分都是根据参考序列提前设定。结果表明两比对算法都能很好的识别“同聚物”和“类同聚物”,实现序列的有效匹配,有效的防止假匹配的产生。为了提高序列比对的性能又不失Smith-Waterman-Gotoh算法的精确度,本课题采用的策略是首先采用与SSAHA类似的算法完成基因组哈希表的建立及短序列种子序列的定位,最后利用上述两种具有识别“同聚物”和“类同聚物”能力的Smith-Waterman-Gotoh比对算法中的任意一种进行延伸序列比对得出有效比对结果。 ②反向互补序列算法研究 高通量测序将DNA双链均进行了测定,因此其中一条DNA单链不能直接用于比对,需要涉及到序列之间的反向互补转化。本课题简单实现了此算法,且该算法在模拟数据集中测试通过。 4、特征分析算法研究 两核苷酸实时合成测序从理论上表明具有和SOLiDTM类似的区分真正“SNP”和“测序错误”的特征。本课题运用该理论特征,设计完成了两核苷酸实时合成测序特征分析算法,该算法首先识别出序列两两比对中的所有非匹配位点,并排除这些非匹配位点中无效位点,然后通过设置测序质量阈值,相邻位点的平均测序质量阈值,距比对序列末端距离阈值,非匹配位点的比对质量阈值进一步排除不符合要求的非匹配位点,最后,运用两核苷酸实时合成测序中具有的区分真正“SNP”和“测序错误”的特征,进一步优化。通过模拟数据集中测试表明,该算法具有区分真正“SNP”和“测序错误”的能力。