一种基于互信息以及期望最大化的下一代测序纠错算法

来源 :广西大学 | 被引量 : 0次 | 上传用户:gghe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
下一代测序(NGS)技术因其较高的测序速度和较低的测序成本,已经逐渐替代传统测序技术,成为生物信息学领域对基因序列进行测序的首选方法。但下一代测序技术经常会出现短序列结果,以及测序结果准确率不够高等问题。因此,下一代测序更依赖于通过各种纠错工具来进行序列纠错,以提高测序结果的正确率。近年来,随着计算机技术的不断发展,利用计算机上的纠错软件对测序结果进行纠错,已经成为生物研究领域的一种趋势与常态。在所有的下一代测序平台中,Illumina测序平台因其相对其它测序平台,拥有较低的测序成本,以及较好的测序质量,目前已经成为领域内最受欢迎的测序平台。但Illumina平台由于测序技术限制的原因,随着测序长度的增长,其测序的精度会逐渐降低。这也使得测序结果经常会产生短读段,难以保证测序结果的准确度。因此,本论文根据以上研究背景和研究现状,决定基于Illumina测序平台,研究出一种基于互信息以及期望最大化的下一代测序纠错算法,用以提高该平台测序结果的质量。本论文介绍了下一代测序技术和基因纠错方法的相关背景和研究现状,以及本论文所需的相关技术和算法,提出了一种基于互信息以及期望最大化的下一代测序纠错算法,对下一代测序的测序结果进行纠错。同时,利用下一代测序技术对基因组进行测序,测序完成后将会获得一系列的k-mer序列。k-mer序列在基因纠错的过程中具有举足轻重的作用,许多纠错算法都需要使用这些序列来进行纠错过程。而测序结果产生的k-mer序列数量十分庞大,如果不将这些k-mer序列进行正确地保存,将会影响后续纠错过程的速度和精度。针对这一情况,本文提出利用Bloom Flter数据结构对k-mer序列集合进行存储,以降低集合的存取时间及占用空间。我们将使用本文提出的算法和其它常用的基因纠错算法进行对比实验。实验结果表明,本文提出的算法相比于其它常用方法,在纠错正确率方面有较大程度的提高。同时,使用BloomFilter数据结构对k-mer序列集合进行存储,有效地降低了基因纠错的时间复杂度和空间复杂度。
其他文献
传统金融学认为股票收益率与股票名义价格的高低并无关系。然而本文从行为经济学视角出发提出假说,A股市场散户投资者在锚定效应的影响下,将会产生低价股“便宜”和高价股“
“三维目标”是指教育教学过程中应该达到的三个目标维度,即“知识与能力”目标、“过程与方法”目标、“情感态度与价值观”目标。作为2001年国家课程改革产生的一个新名词,
2008年7月13日,欧盟27个成员国、部分地中海沿岸国家和卡塔尔、毛里塔尼亚等43个国家的领导人在法国首都巴黎举行了首届地中海峰会。峰会通过联合声明,制定共同战略,启动了旨在
美国军工集团的力量是不可小觑的,在当今世界军工100强中,美国的军工企业在前10名中就占了7席。所以财大气粗的军工集团对美国各方面方针、政策、战略的制定施加的影响是广泛而
自闭症谱系障碍(Autism Spectrum Disorder,ASD)的发病率在全球范围内逐年攀升,社会各界对于自闭症的关注也越来越多。多项研究表明,自闭症儿童对外界运动刺激存在着视觉加工障碍,而现实生活中存在着大量的动态信息,个体能否对这些动态信息产生正常的觉察并且保持视觉注意,是能否做出合适的行为反应的基础。因此,观测自闭症儿童在视觉运动追踪中的表现,探究自闭症儿童对运动信息加工的特点和规
“师者,所以传道、授业、解惑也”。这是唐代政治家、文学家韩愈在《师说》中开宗明义之语。这句话非常简单,核心语汇不过六个字,但也可能正因为如此,这算是古今中外对于教师这个
已占到北京义务教育阶段学生总数1/3的在京借读生,中考时应该报北京高中还是回原籍?北京市教委官员日前做客北京城市管理广播时,建议“这类孩子回户籍所在地读高中,这样对将来高考比较有利”。而此前,疑因无户口不能报名参加高考,父亲为北京市集体户口的高三学生小美(化名)服下了一粒自制的亚硝酸钠胶囊,随后被同学发现送往医院。   小美是个个案,但她并不孤单。她的身后,有数以千万计的孩子和她一样迷惘、彷徨,感
2002年8月15日,伊朗反对派组织向媒体公开披露了伊朗正在秘密建造两座核设施后,美国多次指责伊朗秘密研制核武器,并向伊朗施压,以遏制伊朗的核技术开发。美国认为伊朗的核问题将
众所周知,油画作为一种西方舶来品传入中国以后经历其与民族本土文化的碰撞和融合,而因此成为当下中国艺术界内绘画的主流之一。中西方艺术因为文化间的差异、地域的不同、经
石油天然气研究上的中亚地区一般指里海以东的哈萨克斯坦、乌兹别克斯坦、土库曼斯坦、吉尔吉斯斯坦、塔吉克斯坦五国和里海以西的阿塞拜疆、格鲁吉亚、亚美尼亚三国。其中主