论文部分内容阅读
随着计算机技术和检测技术的持续进步和不断发展,获得的仪器数据正在迅速增长,各类的数据库也层出不穷。如何从大量检测数据中发现事物间所存在的特征和规律是当代学者亟待解决的主要课题。模式识别是当前对采集后的数据信息进行分析并挖掘的最佳方法之一,并已在众多领域得到广泛应用。本文利用偏最小二乘法线性判别分析(PLS-LDA)、随机森林(RF)、偏最小二乘法(PLS)、主成分分析(PCA)等模式识别方法分别对肺癌、水质和茶叶的质谱数据展开模式识别分析,同时建立了相应的分类识别模型,取得了较好的结果,为模式识别方法在质谱数据中的应用提供了新的研究思路。本文的主要研究内容包括:(1)建立了一种基于偏最小二乘法线性判别分析(PLS-LDA)的肺癌诊断模型。采用电喷雾萃取电离质谱对肺癌组织和正常组织进行直接质谱分析,结合偏最小二乘法线性判别分析(PLS-LDA)对肺癌组织和正常组织的质谱数据进行模式判别,并对组织样本中存在的潜在生物标记物进行了鉴别和分析,为未来进一步探究肺癌的发生、生长规律及寻找潜在的生物标记物奠定基础。(2)建立了两种基于随机森林(RF)的水质直接质谱分类模型。对五类地表水进行直接质谱分析,结合随机森林算法对五类水质样本质谱数据进行模式判别,分类模型准确率分别达到了95.19%和100%。(3)建立一种基于随机森林(RF)的重金属Cu离子水样的快速分类模型,快速实现对含重金属Cu水质样本的分类,模型的外部准确率达到了96.15%。(4)建立了分别基于偏最小二乘法(PLS)和随机森林算法(RF)的茶叶分类模型。采用偏最小二乘法(PLS)和随机森林算法(RF)成功实现了对红茶和绿茶的快速分类和不同产地茶叶的快速区分,同时也挑选出了一些潜在的标志物离子,对于茶叶分类这项研究和整个行业具有重要意义,也为茶叶分类的标准提供了一种新思路。