论文部分内容阅读
随着近年来二代测序的快速发展,许多检测算法被证明可以用来识别基因组结构变异,基因组结构变异的仿真和符合真实测序特性的序列的生成可以为这些检测算法提供一个必要的基准。基因组结构变异和单位点变异占人类基因组变异的绝大部分,在人类基因组序列中仿真这些变异可以为变异检测和比对算法的性能评估提供答案。由于结构变异的复杂性和真实测序数据读段生成的不确定性,想要捕获真实的测序特征并实现仿真并不容易,目前存在的仿真算法都不能模拟与实际测序数据相关的所有特征。为了克服这个限制,本文提出一个新的仿真算法SVSR。它整合了与主要基因组变异和真实测序数据相关的多个重要特征,可以模拟单位点变异和五种常见的基因组结构变异(插入缺失、串联重复、拷贝数变异、倒位和易位),并生成基于四种主流测序平台(Illumina、Solid、Roche 454及Ion Torrent)的测序数据。SVSR的实现包括以下两个部分:(1)提出了一种新的基于基因组结构变异的仿真算法。采用变异热点分布模型、选择模型和肿瘤异质性模型对多种复杂基因组变异进行建模分析。第一,对单位点变异进行仿真。分析了变异的热区分布、纯合杂合比和转换颠换比。第二,对短序列插入缺失变异进行仿真。分析了变异的热区分布、三种变异长度indel分布、变异种类及插入数据的不同来源。第三,对拷贝数变异进行仿真。分析了变异状态之间的转移概率,采用选择模型来确定概率值。第四,对串联重复进行仿真。采用两个复制规则来生成串联重复序列。第五,对倒位和易位进行仿真。模拟了常见的倒位和易位,根据需求对特定的变异进行仿真。综合以上变异仿真部分,可以对生殖细胞变异和体细胞变异进行模拟,生成符合特定要求的异质性肿瘤序列。(2)提出了一种新的基于真实测序数据的序列生成算法。采用质量值分布模型和GC偏移模型对特定肿瘤纯度的序列生成过程进行建模分析,生成正常样本和肿瘤多样本测序序列。第一,确定读段长度、插入尺寸、测序深度等测序信息。针对不同测序平台确定特定的测序信息值。第二,对测序质量值分布和测序错误进行分析。SVSR通过训练各测序平台的真实数据来确定质量值的分布,通过一个错误模型对真实测序错误率进行模拟。第三,对GC偏移进行分析。GC偏移是指测序读段数较测序深度发生的偏离程度,这是由DNA片段GC含量的变化所导致,SVSR用一个线性关系来模拟这个偏离程度。在读段生成时,通过训练真实数据的质量分布,设置合适的特征值,最后生成特定的正常样本、肿瘤样本或正常样本和肿瘤样本混合的测序序列。综上,SVSR是一个集变异仿真和序列生成为一体的功能强大的仿真工具,它可以仿真发生多种变异的正常样本和肿瘤样本,并生成相关平台的测序数据。通过分析实验结果可知,SVSR可以在合理的测序质量范围内仿真更加真实的数据特性,并且拥有众多优势:(1)仿真变异类型多(六种基因组变异);(2)模拟了了变异热点分布、纯合杂合比及转换颠换比;(3)考虑了插入数据的不同来源;(4)模拟了肿瘤异质性和肿瘤纯度;(5)模拟了测序过程中的GC偏移和测序质量分布等。总而言之,SVSR在模拟复杂的结构变异和生成各种测序读段方面具有独特的功能,它可以用作现有仿真算法的补充,也可以作为变异检测和比对算法的基准。这有助于用户选择合适的方法实现需求,并帮助研究人员基于对现有方法缺点的理解,开发功能更强大的变异检测和比对算法。