论文部分内容阅读
高通量测序技术在分析较低测序通量需求的基因样本时,通常采用多样本混合测序的实验方案。为了辨识不同的样本,会在样本测序片段的一端添加唯一的DNA条形码,从而编码不同的DNA样本。高质量的DNA条形码是多样本研究得以成功进行的关键因素。没有系统性设计的DNA条形码容易引起序列的错误分配并造成数据集交叉污染,从而严重影响后续的数据分析和数据挖掘。 根据DNA条形码设计的现状,本文利用信息科学中差错控制编码的思路,使用BCH码设计了用于多样本测序的DNA条形码。其中(15,7)条形码能够编码128个样本,在模拟测试中达到99.518%的纠错率。基于BCH码的DNA条形码优势在于可定制的编码长度和容错性能,能够灵活的根据需求设计DNA条形码。 为了解决编码空间利用率较低、可用编码数量较少的问题,本文提出了一种基于贪婪策略的编码空间优化搜索算法,能够生成任意进制、任意长度的编码,在码字间保持一定距离的情况下,尽可能充分的利用编码空间,并生成更多数量的编码。利用此算法生成8bp长度的1198个编码,码字间保持了3位的汉明距离,在模拟测试中达到96.918%的纠错率。利用此算法,基于编辑距离生成了6bp长度的99个编码,在模拟测试中能够达到97.618%的纠错率。基于编辑距离的编码能够抵抗测序中可能出现的碱基插入或缺失错误,适用于容易产生此类错误的454测序平台。 生物内源性条形码是指生物体内一段具有较强保守性的基因序列,可用于辨别物种。为了缩短生物内源性条形码的长度,以使其适用于高通量测序,本文使用滑动窗口的方法寻找生物内源性条形码中固有的特异性序列,并提出以样本区分度R2与进化关系相似度Q来评估窗口内序列的物种分辨度。以狼蛛属33个物种的基因CO1序列以及肠杆菌科41个物种的16s rRNA序列为样本,研究并分析了它们的变异区域。其中狼蛛属物种的CO1序列在使用总长80bp的双滑动窗口分析时,样本区分度R2最高可达87.88%,进化关系相似度Q最高可达95.39%。本文还提出了一种快速的多窗口搜索算法,以在较短的时间内寻找内源性条形码内部多个不连续的变异区域。使用此算法寻找肠杆菌科41个物种16s rRNA序列中5个变异区域,并要求物种在区域内的序列能够保持3位汉明距离,在总长度30bp时,此算法寻找到的5个变异区域的样本区分度R2达到100%。 最后,设计并开发了DNA条形码生成软件BioCoder。BioCoder软件有3个主要模块:BCH码编码模块、搜索算法编码模块以及解码模块。其中BCH码编码模块与搜索算法编码模块能够根据本论文的主要研究内容生成适用于多样本测序的DNA条形码,而解码模块能够在多样本测序之后对测序片段中的DNA条形码进行解码,从而判断此测序片段所归属的样本。软件可从http://sourceforge.net/p/biocoder获取。