论文部分内容阅读
基因芯片技术对当代生物学研究产生了巨大影响。根据高通量基因表达谱数据,采用数据挖掘技术识别癌症等复杂疾病相关的差异表达基因及功能模块,对研究疾病机理、疾病的诊断和预测有重要的意义。在分析基因芯片之前,我们通常要对数据进行预处理,以得出更可靠的分析结果。预处理对后期分析结果有着至关重要的影响,然而在基因芯片数据预处理过程中,研究人员通常不考虑样本的不同生理状态,对所有的样本统一进行归一化的标准化处理。采用这种标准化的假设是:疾病中差异基因的比例很小并且差异上调和差异下调的比例大致相等,因而在癌症还是正常状态下基因的表达都具有相同的分布。然而癌的发生和发展往往涉及大量基因的异常表达,这个被研究者所广泛采用的标准化的前提假设并没有被充分的论证过。
基于癌症中基因表达的系统性特征模式揭示基因表达丰度的真实的分布,可以更有效的挖掘高通量数据的真实生物学信号,为我们研究癌症的发生机制、识别癌相关基因、设计与评价更符合癌的复杂特性的疾病诊断与治疗分子标志提供依据。在本论文中,我们通过现有的可信度较高的表达谱数据来研究基因表达的整体分布,结果显示传统的高通量数据的标准化前提假设并不是通用的。我们发现相对于正常状态,癌症状态下基因的表达丰度普遍升高;对于疾病样本和正常样本表达分布差别显著的数据,采用原始数据筛选出的差异基因相对于传统标准化筛选的差异基因与癌通路间具有更高的功能相关性。本文的研究结果提示:癌症中基因存在整体上调的现象;对于疾病状态和正常状态表达模式具有显著差别的表达谱数据,采用原始信号分析可能是更合理的数据处理方法。