论文部分内容阅读
在目前医学及生命科学研究中,基因芯片被广泛用来进行各种生物实验。其中寻找差异基因在芯片实验中是最基本的实验目的,它在基因诊断、药物筛选等方面有着重要作用。由于芯片实验是复杂多步骤的实验过程,产生的基因表达数据包含了大量噪音,另外重复芯片个数太少和基因表达测量值精度低等多方面影响,使得寻找差异基因非常困难。目前的许多方法仅仅利用重复芯片的基因表达数据的点估计来寻找差异基因。而广泛使用的Affymetrix基因芯片利用多探针技术在提供了基因表达值的同时也提供了获得基因表达值测量误差的可能。而概率方法能够自然的结合基因表达值和测量误差。最近提出的概率方法PPLR同时考虑了基因的表达值和测量误差,提高了寻找差异基因的精确度。但是PPLR方法在变分EM算法中采用了重采样近似计算技术,导致了较低的计算效率。本论文改进现有的PPLR模型,获得一个计算效率和计算精度更高的新模型IPPLR。IPPLR模型采用多层贝叶斯理论,在同时考虑基因的表达值和测量误差的情况下,在原有PPLR模型中增加一层隐含变量,代表每个基因的真实表达值,利用变分EM算法估计模型中的参数,算法中每步计算都能得到解析解,从而克服了PPLR中低效的重采样过程。通过GoldenSpike-in标准数据集和真实的Mouse Embryo数据集验证,IPPLR模型相比已有模型能同时提高计算精确度和计算效率。进一步验证在大规模数据集,Mouse Hair数据集和Mouse Colitis数据集上,IPPLR模型能大幅度的提高计算效率,而且随着芯片的数目增加,计算效率的提高更加明显。为了提供给全球所有生物学家使用,IPPLR模型已经被实现成R语言包,ipplr,可以从http://parnec.nuaa.edu.cn/liux/zhangl下载,同时ipplr也被包含到Bioconductor的基因表达数据概率方法分析软件包puma中。