论文部分内容阅读
基因芯片技术能够同时分析成千上万基因的表达水平,这一技术已经广泛应用于生物学和医学各个研究领域。在其自身迅速发展的同时数据也在不断的增加,如何有效的处理和分析芯片实验所产生的海量数据越来越引起研究者们的广泛关注。基因芯片数据分析简单来说主要包括三块大的部分,数据预处理,数据的分析,数据的进一步分析。通过三个部分的数据分析后,整合样点的生物学信息,发现基因的表达与功能可能存在的联系。
本论文简单介绍了基因芯片数据处理三个部分的一些内容,主要是阐述了我们自主开发的三个新算法,基于累积函数的弱信号处理方法,基于主集寻找的聚类算法,基于局部切空间校准的非线性芯片数据降维算法。另外,我们还阐述了用meta方法来综合各个实验室的酵母在不同环境刺激条件下芯片数据进行分析,发现一些环境刺激表达基本不变的基因,再用多序列比对识别调控元件工具(AlignACE)分析得到一些保守的调控元件。
基因芯片数据中会有许多弱信号点,这些点的信号值容易被背景或者噪声掩盖。必须寻找有效的方法分离有价值的弱信号点和背景点或者噪声。我们发现芯片数据普遍符合分段线性累积分布函数,根据这一特征来确定信号值的阈值。基于此确定阈值的方法综合考虑了新片中整体信号强度和背景值的影响,可以保留较多的有价值点,而且不增加假阳性率,芯片数据的可重复性和可靠性也显著提高。
与使用常规的线性降维方法对基因表达谱进行降维不同,针对处理高维非线性基因芯片数据的困难,本文引入了一种新的非线性降维方法LTSA。本文从算法原理的角度讨论了该方法在芯片数据处理中的适用性,并给出了该方法的误差判定标准,实验结果表明经盯SA降维后得到的低维投影可视化效果好、分类准确性高,且在目标维数判断上优于常用的PCA算法。
芯片聚类算法通常聚类前需要事先定义类的数目,得到的类没有统计显著性,而且类的质量不能得到保证。本文提出了一种新的迭代的聚类算法。首先用主集方法对原有基因进行重新排序,使高度相似的基因排列在特定区域,然后按照某种规则从排序后的数据集中划分出一个类。文中从多个方面分析了该算法的性能,理论分析和实验结果都表明该算法是实用的、有效的并且有很好的抗噪性能。并且将这种算法用在酵母细胞周期的芯片数据上,发现了许多具有生物意义的类,而且这种算法得到的类能够很好地用来识别调控位点。
本文采用meta统计模型寻找在不同环境条件刺激下表达保持相对恒定的酵母基因,使得到的基因的假阳性和假阴性都很低。从这些基因的SAGE表达情况和在各个芯片实验中的荧光表达强度两个方面验证,我们发现绝大多数基因的确是一些表达相对恒定的基因。所找到的基因从生物过程,基因功能和细胞内定位情况看,有一定的相符。并且通过AlignACE分析,得到两个具有普遍性的元件。一方面说明meta分析这种方法是有效的,得到的结论也是准确的,它提供了一种新思路来综合不同的芯片数据进行分析,另一方面得到的基因和元件可能对基因表达恒定的研究都有启示作用。