论文部分内容阅读
基于蛋白质和基因表达谱等高通量数据识别与癌症发生和发展相关的生物标记是癌症研究的一个重要方面。尽管相关研究已经取得了大量的成果,但是已发现的各类生物标记在不同研究中的可重复性很低,导致人们对这些生物标记的生物学意义及其临床可应用性产生了质疑。因此,分析影响癌症相关生物标记识别可重复性的因素并发现可重复的生物标记是非常重要的。本论文对基于蛋白表达谱和基因表达谱数据识别癌症相关标记的可重复性问题进行了探究。1.分析表面增强激光解析电离飞行时间(Surface Enhanced LaserDesorption/Ionization Time-Of-Flight,SELDI-TOF)质谱数据预处理方法对癌症相关蛋白峰标记识别可重复性的影响。SELDI-TOF质谱检测样本输出的原始数据为一列质荷比值及其对应的一列表达强度值,需要通过数据预处理方法从质荷比值中提取代表蛋白或多肽的蛋白峰并计算其表达值,以产生用于识别癌症相关蛋白峰标记的蛋白峰表达谱。然而,对于同一套SELDI-TOF质谱数据集,采用不同数据预处理方法识别的蛋白峰变化很大。我们的研究显示,这种差别主要从两个方面影响癌症相关蛋白峰标记(本文采用差异表达蛋白峰)识别的可重复性:(1)由一个蛋白峰表达谱筛选的差异表达蛋白峰在另外一个表达谱中缺失;(2)在包含较多蛋白峰的表达谱中识别差异表达蛋白峰的统计效能较低。因此,我们提出了在包含较多蛋白峰的表达谱中,采用2-均值聚类分层方法提高识别差异表达蛋白峰的统计效能,并证明采用该方法可以提高采用不同预处理方法识别差异表达蛋白峰的可重复性。根据上述结果,我们建议选取识别较多蛋白峰的数据预处理方法,再通过有效的方法提高识别癌症相关蛋白峰标记的统计效能,以发现更多可重复性较高的癌症相关蛋白峰标记。2.发现与乳腺癌转移相关的微弱差异表达信号并提取可重复的乳腺癌转移相关功能标记。由于基因在转移和非转移乳腺原位癌两组样本之间的差异表达程度较低,在一些乳腺癌转移基因表达谱中,采用通常的错误发现率控制水平(如5%或10%)识别差异表达基因的统计效能可能很低,无法识别足够多的差异表达基因进行后续的功能富集分析,以提取乳腺癌转移相关功能标记。本文分析了5套研究乳腺癌转移的基因表达谱数据集,对于其中的2套差异表达信号微弱的数据集,我们采用两种方法识别足够多的差异表达基因,并据此富集乳腺癌转移相关功能:首先,我们采用2-均值聚类分层方法提高识别差异表达基因的统计效能,以识别更多的差异表达基因;其次,通过在另外3套数据集中进行的功能富集稳健性分析,我们采用较低的错误发现率控制水平识别更多的差异表达基因,并可靠地识别乳腺癌转移相关功能。然后,我们提出统计方法基于不同数据集提取可重复的乳腺癌转移相关功能标记。最后,我们对采用上述两种方法提取的可重复乳腺癌转移相关功能进行比较。结果显示在乳腺癌转移过程中,一些生物学过程(如细胞分裂、细胞周期和DNA代谢过程等)的整体而非其一部分受到了扰动,反映了乳腺癌转移是一种涉及广泛基因表达改变的系统性疾病过程。综上所述,本论文分析了基于高通量SELDI-TOF质谱和基因芯片两种技术识别癌症相关生物标记的可重复性问题,并提出了适当的解决方案,对基于这两种高通量技术进行癌症研究具有重要的意义。