论文部分内容阅读
利用基因表达谱数据,最基础的分析是识别在两类样本间(如疾病与正常)差异表达的基因(Differentially expressed genes,DEGs)。然而,在心脏、肺动脉、脑等重要脏器的相关疾病的研究中,经常难以获取足够的正常对照样本,从而导致在缺乏正常对照样本的情况下无法识别疾病与正常对照之间的差异表达的基因;为了解决缺乏正常样本的问题,有研究提出了数据标化、去批次效应等算法尝试将不同实验室检测的数据整合到一起进行分析,然而由于批次效应的影响这些算法通常扭曲了真实的生物学信号。在本实验室前期工作中,已经提出了基于基因表达水平的相对高低秩序关系(relative gene expression orderings,REOs)的Rank Comp算法,识别在单个疾病样本中的差异表达基因。该算法具有对批次效应不敏感、不需要进行数据标准化等优点,可以整合在过去研究中累积的正常组织样本的数据,从而解决了重要脏器相关研究难以获得足够数量的正常样本的问题。但是,当累积的正常样本的数量不足量时,Rank Comp在识别群体水平的差异表达基因时存在检测敏感性偏低的问题。因此,本课题改进了Rank Comp算法在小样本量数据集中识别群体水平的差异基因的检测效能,并将此改进的算法简称为Rank Pop算法。为评价此方法,我们利用数据库中累积的共160个来自不同实验室检测的正常左心室(Left ventricular,LV)组织样本,从中随机抽取20个正常样本进行仿真,最后得到20个疾病样本的表达谱数据。在此仿真数据集中,Rank Comp识别群体水平差异表达基因的敏感性仅为75.33%,而Rank Pop的敏感性提高至了88.60%。结果说明,当样本量较少时,Rank Pop相对于Rank Comp算法能更准确地识别群体水平的差异表达基因。对137例扩张型心肌病(Dilated cardiomyopathy,DCM)和119例缺血型心肌病(Ischemic cardiomyopathy,ICM)患者,基于跨平台的在正常组织中显著稳定的基因表达的秩序关系,首先分别识别了DCM和ICM的个体化水平的差异表达基因。在此基础上,采用Rank Pop分别识别了DCM和ICM的群体水平的差异表达基因。利用传统方法(T-test)所识别的DCM和ICM的群体水平的差异表达基因评价由Rank Pop识别的差异表达基因,发现Rank Pop方法可以准确地识别DCM和ICM的群体水平的DEGs(一致性分别达到了99.30%和99.38%)。在Rank Pop识别的心肌病的群体水平的差异表达基因中,我们发现有3个基因(MNS1,SFRP4和CCL2)在85%以上的DCM患者中发生失调,有25个基因(MNS1,SFRP4,FCN3等)在85%以上的ICM中发生了失调,其中,SFRP4、FURIN等是心脏疾病的药物作用靶点。将这些基因定义为DCM或ICM高相关基因。通过蛋白质互作(Protein and Protein Interaction,PPI)网络分析,与DCM/ICM高相关基因存在蛋白质互相作用关系的差异表达基因显著富集于与心脏异常相关的通路,包括Wnt信号通路、Hippo信号通路和m TOR信号通路等。本文的分析结果显示,基于基因表达秩序关系的分析方法,可整合不同来源的正常样本,为缺乏正常样本的研究提供对照,据此可以识别个体水平的差异表达基因和群体水平的差异表达基因,为有关敏感脏器等缺乏正常对照的研究提供了有效的分析策略。