论文部分内容阅读
高通量的测序能力使下一代测序技术迅速成为全基因组测序应用领域中的主流技术。ChIP-Seq,RNA-Seq及全基因组重测序等基因组范围内的相关研究均涉及下一代测序数据分析,而理解下一代测序数据最重要的第一步即比对——精确定位每条短序列片段在参照基因组中的位置。目前生物学者通过随机选择短序列比对软件比对分析高通量测序数据,并未根据自身研究类型以及测序数据类型的特异性,选择最佳的短序列比对软件。而本课题的研究目的主要是通过系统比较评价19款短序列比对软件的性能,评价短序列比对软件优劣性,指导生物学家选择合适的比对软件,从高通量的下一代测序数据中精确提取最大化的生物信息。我们首先比较了19款比对软件的算法及特征功能;其次,通过10组来自不同的下一代测序平台的实际测序数据评价短序列比对软件运行效率,最后,通过设计下一代测序数据模拟软件,模拟生成14组参数不同的下一代测序模拟数据(涉及测序误差率,插入/缺失大小及序列片段长度等参数),评价比对精确度,从而综合评价短序列比对软件的优劣性。根据比较结果分析,Novoalign和Segemeh比对功能具有多样性,包括空位比对,双末端比对和bisulfite alignment等比对功能,可以分别应用于研究单核苷酸多态性和结构变异,处理重复区域比对定位问题,构建组蛋白甲基化模式图谱等等不同类型的生物学应用;另外,Bowtie, BWA和SOAP2处理高通量短序列数据比对问题时,计算速度快,内存使用量低,具有高效的实用性;而SOAP2,RMAP,PASS,Novoalign和PerM处理存在错配的短序列数据时具有较高的精确度和灵敏度,适合用于单核苷酸多态性检测相关研究;PASS, SOAP2和Novoalign处理存在插入/缺失的短序列数据时,精确度和灵敏度较高,适合用于结构变异相关研究;最后GASSST比对精确度和灵敏度随着片段长度增加而增加,比较适合分析长序列数据。本课题可以作为重要指导性资源,为生物学研究者选择最佳的短序列比对软件提供理论依据。