论文部分内容阅读
前言后基因组时代应用了大量高通量方法,由此产生了海量的基因表达数据。可靠准确的分类对于癌症的诊断和治疗至关重要。微阵列的使用可以同时检测每个样本的上千个基因表达,不但为客观准确的肿瘤分类提供了可能,而且也为临床医生选择适当形式的治疗提供数据支持。基因表达数据通常存在基因个数远远大于观察例数的情形,传统的统计分析方法有时失效,因此有必要分析何时用何法才能获取最有用的信息。虽然已有研究分析特征基因选择方法并用于肿瘤分类,然而大部分集中于一个方法或单个数据库,并缺乏统计学基础。因此,有必要使用多个数据库对各种方法的性能进行系统比较与分析。随着基因组及后基因组计划的不断开展,越来越多的生物信息被人类不断获得。合理的利用这些信息不但能有效的抑制噪声的影响,也能够避免单纯根据单独实验获得的片面信息,但是只有较少的文献意识到先验信息的重要性。聚类分析是一种有效的数据分析工具,已有研究表明参与同一个生物过程的基因具有相同的功能,因此对基因表达数据的聚类分析成为基因功能预测的一种主要方法。然而在聚类分析中,大部分现有方法都忽视了基因的已知功能。随着基因注释数据库的不断完善,尤其是当数据存在噪声时,在聚类过程中整合已知基因功能不失为一个明智之举。在聚类分析中通常是需要先定义基因表达距离,然后再根据此测量距离将基因聚类。如果这个距离单纯从生物实验出发,并没有考虑已有的先验知识,因此得到的距离就不全面、准确。目的选择合适的特征基因,比较不同方法在基因表达数据肿瘤分类中的优劣;在肿瘤基因表达数据中加入先验信息,提高肿瘤分类准确性;结合已知的生物学功能,提高基因表达聚类分析的准确性和解释性。方法本研究使用五个经典的基因表达数据库,分别包括二分类肺癌、结肠癌、多分类肺癌、儿童期肿瘤和脑肿瘤。分别采用最近收缩质心法(PAM),收缩质心的调整判别分析(SCRDA)和多重比较方法(MTP)选择特征基因,再分别利用所得到的特征基因集进行判别分析,判别分析方法包括:K近邻法(KNN)、线性判别分析(LDA)、C-分类支持向量机(C-SVM)、收缩线性判别分析(SLDA)、收缩对角判别分析(SDDA)、最近收缩质心法(PAM)、收缩质心的调整判别分析(SCRDA)和BP人工神经网络(BP-ANN)。本研究使用恶性胸膜间皮瘤和肺腺癌基因表达数据库,通过检索CancerResearch杂志报道的部分有关肺腺癌的基因,获得这些基因在原始数据集中的位置,并进行MTP检验,剔除不显著基因,保留显著基因,再分别与PAM和SCRDA方法获得的显著基因共同组成特征基因集,然后利用所得到的特征基因集进行判别分析。利用积累的基因功能关系,我们提出将已知基因的功能加入一个新的距离矩阵。这个新距离等于测量距离和功能距离之和。算法分为两步进行;第一步,在基于距离的聚类分析(如K-中心或系统聚类)中使用新距离。第二步,将上一步的聚类结果用于功能未知的基因功能预测,判断其是具有已知的功能,还是具有新功能。结果当基因个数多于样本个数时,传统LDA无法正常执行。从二分类与多分类数据来看,SCRDA选择出的基因个数明显多于PAM选择出的基因个数;SDA、PAM和SCRDA的准确率高于传统LDA方法;在机器学习方法中,SVM的准确率高于BP-ANN;使用全部基因与部分基因相比,KNN准确率有所下降。对于利用PAM和SCRDA方法获得基因集后再结合先验信息的分类方法中,只有少数方法的检验集分类准确率没有得到提高,其它方法都有一定提高,除了PCR等少数方法外,训练集的分类准确率都得到提高,相应的标准差也随之降低。模拟试验和对于酵母菌数据的研究证实整合功能距离方法比标准方法更有效。结论本研究发现特征基因的选择对于分类方法具有一定影响,PAM方法使用的特征基因的数目一般要小于SCRDA方法,而后者又要小于MTP方法。改进的判别方法,尤其是SLDA在肿瘤分类判别方面具有良好的表现,优于传统LDA,各改进方法间差别并不明显。在机器学习方法中,SVM好于BP-ANN,但是需要注意核函数及参数的选取。在判别分析中加入先验信息能够有效提高判别分析能力,降低基因表达数据中噪声的影响,这种思想无论在方法学上还是在实践上都具有实际应用前景。基因表达中结合生物学功能在一定程度上能够提高基因表达聚类分析的准确性和解释性,具有一定实际应用意义。