论文部分内容阅读
在孕妇怀孕期间由于各种原因引起的胎儿染色体倍数的变化,或者基因结构的变化的疾病叫做染色体病。随着胎儿游离DNA在母体血浆中的发现,我们可以通过在生产前对母体抽血采样来获得胎儿的基因信息,然后进行基因测序获取DNA序列。本文的第一个工作是常染色体异常疾病的检测算法,即检测人类的二十二对常染色体是否有增多或者减少。第一个算法是基于整条染色体的检测算法。该算法包括两个模块,数据预处理模块和决策模块。数据预处理模块包括对参照组样本与待测样本使用12个流程进行处理,计算出样本各个染色体含量的进行归一化,求出标准化z值。决策模块使用统计检验方法选取了判定的阈值,界定了灰区的边界,并提出了常染色体分类决策树算法。然后,对180例真实样本使用该算法进行检测,判定该样本是否含有21三体综合征等常染色体异常疾病。该算法的阳性样本检测率为100%,总正确率为93%左右。第二个算法是基于分段染色体的检测算法,算法的核心思想是对每个样本的每条染色体都计算出其z值,作为判断该样本是否为常染色体倍数异常疾病的重要依照。最后介绍了如何将两个算法结合起来,更准确地检测常染色体的倍数异常。第二部分是一种基于双参照组的检测性染色体异常的算法,即检测人类的二条性染色体是否有增多或者减少。人类男女性所拥有的性染色体种类数目都不同,而已有的算法在进行计算时并未关注男胎和女胎其X染色体和Y染色体数目对结果的影响。所以,本文的算法基于这一点,提出了一种新的检测算法,该算法包括两个模块,数据预处理模块和决策模块。数据预处理模块与常染色体检测算法原理相同。而决策模块则是选定了双参照组,通过选择怀有正常胎儿的孕妇样本,将其按照男胎女胎分为两组参照组。对于怀有男胎的孕妇来说,其数据组成包括母亲的XX染色体和孩子的XY染色体;对于怀有女胎的孕妇来说,其数据组成包括母亲的XX染色体和孩子的XX染色体。然后根据算法的分类决策树算法进行决策。主要是在判定样本是阴性还是阳性时,首先先判断该样本是男胎还是女胎。通过样本与女胎参照组的性染色体进行比对来确认胎儿性别。针对女胎,我们将其与女胎参照组的X染色体进行比对,判断其是否有X染色体多体或者单体异常。针对男胎,我们不仅将其与男胎参照组的X染色体进行比对,判断其是否有X染色体多体或者单体异常,而且要将其与男胎参照组的Y染色体进行比对,判断其是否有Y染色体多体或者单体异常。最终判断出其核型分类。最终该算法的阳性样本检测率为100%,总正确率为91%左右。最后一个工作是对非染色体倍数异常突变的检测结果的注释。比如单基因突变疾病、微缺失微重复疾病等,并给出该突变可能的用药。本文整理了一些常见的癌症基因突变与靶向药物的数据库,然后将获得的基因突变进行基因注释,获得其突变的基因、碱基、氨基酸等信息。然后完成了7种类型的突变,分别为氨基酸突变、外显子突变、基因扩增、非移码插入突变、基因融合、基因缺失、基因纯合缺失,对这七种类型的变异,我们可以链接到药物库中,比对出该类型癌症基因的突变可能的靶向用药。