论文部分内容阅读
拷贝数变异(CNVs)通常是指长度大于50bp的DNA片段发生拷贝数变化的现象,是最常见的基因组变异形式之一。发生CNVs是正常生物适应选择压力的结果,然而也是肿瘤常见的特征。新一代测序技术的高速发展,使得CNVs的检测相较于常规的探针技术有更高的通量和效力。越来越多的研究表明体细胞CNVs在恶性肿瘤发生和进展中扮演了非常重要的角色。单细胞测序技术的发展使得揭示单个肿瘤内的细胞在CNVs层面的异质性成为可能。但是有限的DNA量和全基因组扩增引入的GC偏好性等使得传统的用于检测肿瘤组织内的CNVs的方法不能用于单细胞CNVs检测。 本论文中,首先,我们开发了基于隐马尔可夫模型的检测单细胞体细胞拷贝数变异(somaticCNVs)的方法,包括了GC偏好性和比对率校正、通过每个检测窗口的测序片段分布推测该窗口的拷贝数状态,以及将相邻的有相似拷贝数状态的窗口合并等功能。接着,我们模拟生成了chr12染色体上0.3X的测序数据,并在其中模拟生成了长度介于10k~2M长度不等的somatic CNVs。我们分别使用10k,30k,50k和100k这四种不重叠的固定长度的窗口作为基本观测单元来检测somatic CNVs。我们发现该方法在检测大于500k、尤其是长度远大于检测窗口大小的somatic CNVs时,有较高的检测效力,并且在检测大片段的somatic CNVs(>500k)时达到了约85%的敏感度和约95%的特异性。最后,我们获取了50个来自于同一个胶质母细胞瘤的单细胞的低深度测序(~0.3X),并用该方法进行了somatic CNVs检测。我们发现肿瘤组织和单细胞之间在somatic CNVs上的相关性比较显著,印证了该方法的稳健性。此外,在绝大多数肿瘤单细胞中存在的CNVs(如chr7染色体上的扩增,包含EGFR)可能是驱动肿瘤发生的早期事件,而在部分肿瘤单细胞中存在的变异(如chr9染色体上的缺失,包含CDKN2A/B)可能是推动肿瘤进展的晚期事件。因而我们的方法能够帮助研究人员揭示单细胞在CNVs层面的异质性,从而追溯肿瘤动态演化过程并给靶向用药提供指导。 我们的方法仍然存在一定的局限性,例如我们的方法检测不到小片段的、尤其是长度小于检测窗口长的CNVs,过低的测序深度使得每个检测窗口内的测序数据不足以支撑模型等。尽管如此,我们的工作将对以后致力于开发更稳健的基于低深度单细胞数据进行CNVs检测的方法提供思路,同时给单细胞CNVs检测提供了方法,将进一步促进单细胞领域的CNVs层面的异质性研究,帮助研究人员发现促进肿瘤发生的早期CNVs事件和相对晚期的驱动肿瘤进展的CNVs,使得人们对肿瘤的发生与演化有更近一步的理解,并且推动肿瘤精准医疗事业的发展。