论文部分内容阅读
Microarray芯片的预处理一直是生物信息学研究的热点,从探针层面提取出准确基因的信息是芯片数据后续分析成功的关键因素。成功的预处理方法必须既能够去掉芯片探针非特异性杂交的噪音,又能够最大限度地保留探针特异性杂交的信息。解决这一问题的出发点便是准确地理解芯片探针与靶序列间的杂交机制,正确地区分非特异性杂交和特异性杂交。
位置相关紧邻模型(PDNN)对非特异性杂交和特异性杂交进行了区分,并对特异性结合与非特异性结合分别建模,本文在这套方法的基础上进行了扩展。在研究中我们发现,MM探针包含了大量的非特异性结合的信息,因此我们在非特异性结合模型中,增加MM探针的信息来提高估计的精度。在模型实现过程中,我们引入Wilcoxon符号检验,判定基因的表达与否,根据基因的表达判定确定出特异性结合和非特异性参数的两个训练集,对两套参数进行分别训练。这样不但可以提高参数的精度,也更有利于解释特异性杂交和非特异性杂交的特性。
我们将扩展的模型(GPDNN)应用到三类不同芯片(HGU133plus2.0、Rice Array和HGU133A)的实验数据上。通过聚类等分析方法比较发现,GPDNN模型从精确度和稳定程度上都优于常用的四种预处理方法Mas5.0、dChip、RMA和PDNN。