论文部分内容阅读
现代分析仪器的发展为复杂样品的分析提供了大量高维、信息丰富的数据。但是,如何从这些数据中最大程度的提取有用信息并建立有效的定性定量分析方法,是分析化学工作者目前面临的一个重要问题。化学计量学已经在数据处理、信息提取以及定性定量分析中表现出独特的优势,可以解决许多传统分析方法无法解决的问题。因此,本论文将利用化学计量学,主要围绕基于基因表达数据的基因筛选和癌症分类,近红外光谱技术用于植物样品微量成分定量分析模型优化问题开展了研究工作。具体内容主要包括以下两个方面:1、随机检验方法选择重要基因并用于基因表达数据的癌症分类。与癌症分类问题生物相关的基因影响分类的准确率,所以基因筛选是生物信息学中一项很重要的研究内容。本论文将随机检验作为一种基因筛选方法用于处理基因表达数据。该方法通过统计一系列偏最小二乘-判别分析随机模型的回归系数,得到一个统计量来评价基因的重要性,根据其重要性便能从一组基因表达数据中包含的的几千甚至几万个基因中筛选出少量的重要基因。通过100次平行重复计算,将基因的频数作为进一步评价基因重要性的标准。用该方法分别对前列腺癌、肺癌、白血病和非小细胞肺癌四组基因表达数据进行了研究,分别选出了18个、4个、9个和7个重要基因从而实现癌症分类。通过与文献报道中方法对比所选出的基因、多元线性回归建模计算分类准确率以及主成分分析得分图来验证结果的合理性。通过与之前的研究比较,结果表明随机检验方法用于基因筛选具有一定的优越性。因此,随机检验方法可以选出基因表达数据中的重要基因并用于癌症分类。2、近红外漫反射光谱快速测定植物样品中绿原酸、莨菪亭和芸香苷的模型优化。多酚化合物因其普遍存在于植物中,并且可以用作潜在促进人体健康的抗氧化剂,已经得到广泛的研究。本论文建立了一种近红外漫反射光谱快速测定植物样品中三种多酚化合物(绿原酸、莨菪亭和芸香苷)的方法。该方法采用偏最小二乘回归建立模型,并考察了光谱预处理和变量筛选对模型的影响。结果表明,单一的光谱预处理或者变量筛选对模型影响很小,而两者的组合可以明显改善模型。结果发现,连续小波变换用于去除变动背景,多元散射校正用于校正多元光散射效应以及随机检验用于选择有信息变量可以建立最优模型。通过预测独立样本集中多酚含量来验证模型发现,对于绿原酸、莨菪亭和芸香苷,预测值与高效液相色谱分析得到的测量值之间的相关系数分别高达0.964、0.948和0.934。因此,近红外漫反射光谱可以用于植物中多酚化合物的快速分析。