论文部分内容阅读
基因芯片是二十世纪九十年代新兴的一项实验技术,它不同于传统的生物实验手段,可以同时检测成千上万个基因的表达情况。由于其研究的问题规模较大,传统的生物学数据分析方法并不能很好的处理这类数据。伴随着基因芯片技术的不断发展,其数据分析方法也在不断的发展。本文首先从芯片数据分析流程中探针匹配、野值检测、特征选择和构建调控网络环节中存在的问题出发,通过提出新方法或系统的研究来解决这些问题,最后通过对一个乳腺癌数据进行分析来阐释基因芯片在生物学研究中的作用与不足。针对探针匹配问题,我们通过比较一系列数据分析方法在基于新旧探针组定义生成的数据集上得到的结果来研究探针匹配问题对数据分析的影响。经过比较后我们发现改变后的定义对基于基因和基因集合的分析影响很大,对样本分析的影响很小;在野值检测这一环节,我们提出了一套基于迭代思想的野值检测策略,该策略不仅原理简单,不受分类方法局限,而且还在仿真和实际数据集上都取得了令人满意的结果;针对wrapper类方法无法计算每个特征统计显著性的问题,我们提出一套基于排序值衡量特征统计显著性的方法,在仿真数据集上得到的实验结果证明了该方法的有效性;在构建调控网络的研究中,我们通过改变贝叶斯网络学习过程中的参数来研究参数选择对基因调控网络重建结果的影响,比较结果表明先验知识和初始结构都会对网络重建的结果有着不可忽略的影响,在具体使用时应根据实际情况加以选择。在乳腺癌数据的分析中,我们分别研究了基因表达与乳腺癌病人临床特征之间的关系,这些临床特征包括激素受体、淋巴结扩散、肿瘤分级、LVI和肿瘤大小。实验结果表明:激素受体、肿瘤分级这类生物学特征与基因表达之间有很强的相关性,可以从基因表达进行预测;而淋巴结扩散、LVI和肿瘤大小这类解剖学特征则很难从基因表达进行预测。针对与病人预后十分相关的淋巴结扩散问题,我们还研究了其与临床特征间的关系,并分析了各种与其相关的特征对淋巴结扩散的影响。