用于高通量DNA测序的编码方法研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:huninbo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
高通量测序技术在分析较低测序通量需求的基因样本时,通常采用多样本混合测序的实验方案。为了辨识不同的样本,会在样本测序片段的一端添加唯一的DNA条形码,从而编码不同的DNA样本。高质量的DNA条形码是多样本研究得以成功进行的关键因素。没有系统性设计的DNA条形码容易引起序列的错误分配并造成数据集交叉污染,从而严重影响后续的数据分析和数据挖掘。  根据DNA条形码设计的现状,本文利用信息科学中差错控制编码的思路,使用BCH码设计了用于多样本测序的DNA条形码。其中(15,7)条形码能够编码128个样本,在模拟测试中达到99.518%的纠错率。基于BCH码的DNA条形码优势在于可定制的编码长度和容错性能,能够灵活的根据需求设计DNA条形码。  为了解决编码空间利用率较低、可用编码数量较少的问题,本文提出了一种基于贪婪策略的编码空间优化搜索算法,能够生成任意进制、任意长度的编码,在码字间保持一定距离的情况下,尽可能充分的利用编码空间,并生成更多数量的编码。利用此算法生成8bp长度的1198个编码,码字间保持了3位的汉明距离,在模拟测试中达到96.918%的纠错率。利用此算法,基于编辑距离生成了6bp长度的99个编码,在模拟测试中能够达到97.618%的纠错率。基于编辑距离的编码能够抵抗测序中可能出现的碱基插入或缺失错误,适用于容易产生此类错误的454测序平台。  生物内源性条形码是指生物体内一段具有较强保守性的基因序列,可用于辨别物种。为了缩短生物内源性条形码的长度,以使其适用于高通量测序,本文使用滑动窗口的方法寻找生物内源性条形码中固有的特异性序列,并提出以样本区分度R2与进化关系相似度Q来评估窗口内序列的物种分辨度。以狼蛛属33个物种的基因CO1序列以及肠杆菌科41个物种的16s rRNA序列为样本,研究并分析了它们的变异区域。其中狼蛛属物种的CO1序列在使用总长80bp的双滑动窗口分析时,样本区分度R2最高可达87.88%,进化关系相似度Q最高可达95.39%。本文还提出了一种快速的多窗口搜索算法,以在较短的时间内寻找内源性条形码内部多个不连续的变异区域。使用此算法寻找肠杆菌科41个物种16s rRNA序列中5个变异区域,并要求物种在区域内的序列能够保持3位汉明距离,在总长度30bp时,此算法寻找到的5个变异区域的样本区分度R2达到100%。  最后,设计并开发了DNA条形码生成软件BioCoder。BioCoder软件有3个主要模块:BCH码编码模块、搜索算法编码模块以及解码模块。其中BCH码编码模块与搜索算法编码模块能够根据本论文的主要研究内容生成适用于多样本测序的DNA条形码,而解码模块能够在多样本测序之后对测序片段中的DNA条形码进行解码,从而判断此测序片段所归属的样本。软件可从http://sourceforge.net/p/biocoder获取。
其他文献
学科核心素养这一新型教育理念随着新课改的推进得到学校和社会越来越多的重视和关注,它的提出为初中历史教学改革指出明确的方向,也因此成为教学中的“主旋律”.在初中历史
粒子群优化算法(PSO,Particle swarm optimization)是通过粒子间相互作用来发现复杂搜索空间中最优区域。它简单容易实现且功能强大,已经成为国际演化计算界研究的热点。论文在
学位
在素质教育的背景下,中职教学不能仅仅停留在对学生理论知识的讲解层面,还应该通过优秀的传统文化来培养学生的人文情感以及家国情感等,进而提升中职学生的核心素养,让其在激
吕林同志的女儿荳荳来电话,硬是叫我给“见微知著——吕林旧藏陈子庄精品展”写一点东西,此事对我来说真是有点勉为其难。因为大家都知道,我是一个半路出家到美术界的业务行
随着21世纪的到来,我国的经济,科技,军事,国防等水平在不断的提高,综合国力在不断的增强,已位于世界强国之中.随着我国经济水平的快速增长,我国相关社会建设步伐也在迅猛增长
DNA测序技术以更高的测序通量、更快的测序速度和更低的测序成本为发展宗旨经历了三个时代。纳米孔测序技术作为新一代DNA测序技术的主要代表之一,为人们实现千元测序计划提供
思政教学是大学阶段教学的重要一环,其对于不同专业的学生来说都具有着十分重要的意义,其教学目的在于对学生个人的价值观念进行积极的影响,促进学生综合素养的稳步提升.然而
随着科学技术的发展,多媒体在高中语文教师教学中的应用已经成为了必然趋势.高中语文教师也因此就着多媒体应用这一方向进行不断地研究和探索,旨在达到精益求精的效果.在此过
纳米银以其良好的抗菌性能成为目前商业化最高的纳米材料之一,其广泛应用大大增加了纳米银对人体的暴露,可通过呼吸、饮食、注射及皮肤接触等途径进入人体,与血液或组织接触,并可