基因芯片数据分析方法的比较研究

论文部分内容阅读

前言基因微阵列技术能在一次实验中衡量数以千计的基因的表达强度,是分子生物学和医学一个强有力的工具,可以解决许多重要问题在生命科学领域。基因芯片技术一个主要的应用是寻找样本之间差异表达显著的基因,并在这些差异表达显著的基因的基础之上进行分类,进而希望用较少的基因个数获得较好的分类效果,这对临床诊断、治疗以及对功能基因的研究都有重要的意义。制约基因芯片技术发展的主要问题是缺乏良好的数据分析工具。微阵列数据分析困难有几个原因。首先,小样本量及相对大量的基因往往造成同时出现低灵敏度和低特异性的情形。第二,基因表达数据是基于传统的统计方法出发,而不是从实际的数据的非线性角度出发。也就是获得的基因表达数据所具有数据量大、维数高、样本量小、非线性的四大特点制约了其进一步发展。广义似然比检验(GLRT)具有对多变量、低表达、非线性数据分析灵敏的特点,其参数为-21g~λ,该参数近似的服从χ~2(1)分布,这样其误差就被有效的控制住;而支持向量机(SVM)能够较好的解决小样本、非线性、高维数、局部极值的问题,已在模式识别、非线性建模等领域得到广泛应用。本研究采用广义似然比检验与支持向量机相结合的方法先提取差异表达显著的基因然后在此基础上进行分类和优化分类。材料与方法本研究采用的数据集来自于Golub在1999年使用高密度寡核苷酸阵列检测得的急性淋巴细胞白血病(ALL)和急性髓性白血病(AML)两类白血病患者的7129个基因芯片数据。训练集包括38个样本,其中27个是ALL,11个是AML。测试集包括34个样本,其中20个是ALL,14个是AML。以训练集为基础使用广义似然比检验鉴别出差异显著的基因,然后用生物学知识初步验证鉴别的有效性。再在差异显著的基因的基础上构建3种核函数的支持向量机模型、神经网络及Golub的领域分析模型。将训练集和测试集的输入和输出的数据进行归一化后,利用软件Matlab7.0带入以上的模型。采用正确分类的百分率评判预测效果。选一个好的分析模型进行分类优化。结果通过广义似然比检验鉴别出50个差异显著的基因,用生物学知识验证鉴别得到的基因大都与白血病相关,只有极少的基因的相关文献报导较少。利用多项式SVM、径向基SVM、Sigmoid SVM、神经网络和Golub的领域分析模型对训练集的分类正确率分别为100%、100%、89.5%、94.7%、94.7%,对测试集的分类正确率分别为94.1%、97.1%、88.2%、88.2%、85.3%。选用径向基SVM模型分别对前40、30、20、15、10、8个基因的训练集和测试集分类的正确率分别为100%、94.1%,97.4%、91.2%,97.4%、94.1%,100%、94.1%,97.4%、85.3%,92.1%、85.3%。结论广义似然比检验具有对多变量、低表达、非线性数据分析灵敏的特点,所以本研究用于差异基因的鉴别。其鉴别结果结合白血病分子标志物研究现状分析,与不同类型白血病的关系显著。只有极少的基因的相关文献报导较少,这些基因可能够为鉴别AML和ALL提供一些新的分子标志物。支持向量机着重用于解决小样本、非线性、高维数、局部极值的问题,已在模式识别、非线性建模的领域得到广泛应用。本研究的前两种非线性核函数分类器的识别结果基本一致,说明了不同的非线性核函数(Sigmoid函数除外)的支持向量机表现出的性能大致相同,最终采用分类效果最好的径向基SVM。分类优化的结果认为选取前15个基因的时候分类的效果较好。

其他学术论文