基因表达数据基因筛选与近红外光谱微量成分模型优化方法研究

来源 :南开大学 | 被引量 : 1次 | 上传用户:hanjingcj520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现代分析仪器的发展为复杂样品的分析提供了大量高维、信息丰富的数据。但是,如何从这些数据中最大程度的提取有用信息并建立有效的定性定量分析方法,是分析化学工作者目前面临的一个重要问题。化学计量学已经在数据处理、信息提取以及定性定量分析中表现出独特的优势,可以解决许多传统分析方法无法解决的问题。因此,本论文将利用化学计量学,主要围绕基于基因表达数据的基因筛选和癌症分类,近红外光谱技术用于植物样品微量成分定量分析模型优化问题开展了研究工作。具体内容主要包括以下两个方面:1、随机检验方法选择重要基因并用于基因表达数据的癌症分类。与癌症分类问题生物相关的基因影响分类的准确率,所以基因筛选是生物信息学中一项很重要的研究内容。本论文将随机检验作为一种基因筛选方法用于处理基因表达数据。该方法通过统计一系列偏最小二乘-判别分析随机模型的回归系数,得到一个统计量来评价基因的重要性,根据其重要性便能从一组基因表达数据中包含的的几千甚至几万个基因中筛选出少量的重要基因。通过100次平行重复计算,将基因的频数作为进一步评价基因重要性的标准。用该方法分别对前列腺癌、肺癌、白血病和非小细胞肺癌四组基因表达数据进行了研究,分别选出了18个、4个、9个和7个重要基因从而实现癌症分类。通过与文献报道中方法对比所选出的基因、多元线性回归建模计算分类准确率以及主成分分析得分图来验证结果的合理性。通过与之前的研究比较,结果表明随机检验方法用于基因筛选具有一定的优越性。因此,随机检验方法可以选出基因表达数据中的重要基因并用于癌症分类。2、近红外漫反射光谱快速测定植物样品中绿原酸、莨菪亭和芸香苷的模型优化。多酚化合物因其普遍存在于植物中,并且可以用作潜在促进人体健康的抗氧化剂,已经得到广泛的研究。本论文建立了一种近红外漫反射光谱快速测定植物样品中三种多酚化合物(绿原酸、莨菪亭和芸香苷)的方法。该方法采用偏最小二乘回归建立模型,并考察了光谱预处理和变量筛选对模型的影响。结果表明,单一的光谱预处理或者变量筛选对模型影响很小,而两者的组合可以明显改善模型。结果发现,连续小波变换用于去除变动背景,多元散射校正用于校正多元光散射效应以及随机检验用于选择有信息变量可以建立最优模型。通过预测独立样本集中多酚含量来验证模型发现,对于绿原酸、莨菪亭和芸香苷,预测值与高效液相色谱分析得到的测量值之间的相关系数分别高达0.964、0.948和0.934。因此,近红外漫反射光谱可以用于植物中多酚化合物的快速分析。
其他文献
本论文围绕手性三级胺多样的活化模式,发展了一些不同类型的手性三级胺催化的不对称反应,实现了一些重要的手性功能分子及潜在生物活性分子骨架的构建。内容主要分为以下四个
20世纪20年代,在音乐界内产生了三种思潮,即:1.主张"以西为师"。认为应当学习借鉴西方先进音乐经验,来改进我国的传统"旧乐"。代表人物有萧友梅、赵元任、刘天华等人。2.坚持
本论文基于吡啶衍生物类配体异烟酸(HIN=isonicotinic acid)、2,5-吡啶二甲酸(H2PYDC=pyridine-2,5-dicarboxylic acid)、4-四氮唑基吡啶(HTP=4-tetrazole pyridine)和不同金
伊沃成孤儿南斯拉夫刚解放不久,临海的海鸥岛上有座半坍的小屋,里面住着12岁的男孩伊沃。他的母亲生下他就死了;他父亲是个要强的人——为了帮岛上的渔民摆脱贫困,他劝火家集资让
一、引言 随着我国"十一五"规划中"新农村建设"的进行,构建普惠金融体系的要求更加明确,小额信贷作为向无法从传统正规金融机构获得信贷服务的低收入阶层提供小额贷款的金融模式,
生物碱是一类重要的天然产物,它们大多具有复杂的结构和一定的生理活性。对具有复杂结构和重要生物活性的生物碱的全合成研究是有机合成化学和药物化学的一个重要内容。本论
在印度的乞拉朋齐,我们第一次见到了“树桥”。这种桥不是搭建起来的,而是种植的树木自然生长而成。乞拉朋齐位于印度东北部的梅加拉亚邦,是世界上公认的“雨极”。在这种湿热多