论文部分内容阅读
复杂体系的化学模式识别和质量分析一直是分析化学中极具挑战性的课题。现代分析仪器的发展为复杂体系的分析提供了大量多维的、信息丰富的数据,如何从这些繁杂的数据中最大限度地获取有用信息并建立有效的分析方法,是当代分析化学工作者面临的一个重要课题。化学计量学是一门化学与统计学、数学、计算机科学交叉所产生的化学学科分支。其在数据处理、信息提取以及复杂体系的定性定量分析中具有独特优势,能够解决许多传统分析方法难以解决的问题。因此,本论文主要以化学计量学方法中的主成分分析、系统聚类分析和三维数据解析等方法为基础,开展了适合复杂体系的化学模式识别与质量分析方法研究,为提高复杂体系的分类和鉴别提供新的思路。具体内容主要包括以下几个方面:
1.基于主成分分析在高维数据分析中具有的独特优势,提出了一种主成分累积(principal component accumulation,PCAcc)分析方法,并将其用于提高两类的辨别。该方法主要通过一种累加策略将多个主成分中的信息进行融合,并利用最终的融合信息对样品进行分类。该方法的特点在于,通过累加操作充分地利用了多个主成分空间中的信息,从而全面地反映了样品的类别模式。将提出的PCAcc分析方法用于基于基因表达数据的癌症样品分类研究,并将所得结果与主成分分析方法及文献报道方法的结果进行了比较。结果表明,PCAcc分析方法可获得较全面的类别信息,有效提高分类结果的准确性。
2.对上述PCAcc分析方法进一步发展,使其适合多类别复杂样品的分类研究。该方法采取依次区分的方式实现多类别复杂样品的分类。即依据各类样品差异程度的不同,寻找最容易和其它类分开的一类,将多类问题简化为两类问题,然后采用累加策略依次实现各类样品的区分。此方法的特点在于,一方面充分利用了不同主成分空间中的信息,全面地反映了样品的类别模式,另一方面,由于对各类按差异程度的大小采取了依次区分的方式,可以更清楚地描述样品间的差异关系。将方法应用于不同部位及不同牌号烟草样品的分类研究。结果表明,该方法可对多类别的复杂样品实现有效识别,为解决多类别复杂样品的分类提供了新的途径。
3.将主成分分析、系统聚类分析与近红外光谱技术相结合用于复杂样品的模式识别研究,并提出了一种改进的系统聚类图以实现多类别烟草样品的区分。在该方法中,首先利用主成分分析实现信息的提取和数据的降维,然后采用系统聚类分析对各类进行相似度区分。针对传统系统聚类图在处理类别数目多并且每类都含有大量样品的识别问题时,缺少有关类内样品差异情况和类间样品分离情况描述的缺点,对传统的系统聚类图进行了改进。在图中分别加入描述类间区分程度和类内样品离散程度的参数,从而为复杂样品的分析提供更全面、直观的信息。
4.将交替三线性分解(alternating trilinear decomposition,ATLD)算法引入复杂样品的质量分析研究。利用ATLD方法可以在未知干扰存在下提取感兴趣信息的特点,将ATLD方法和在线近红外光谱技术相结合用于不同批次及不同牌号烟草样品的质量分析。即首先采用ATLD方法提取不同批次样品的内在品质信息,然后利用内在品质信息进行生产过程中批次样品的质量分析和不同牌号样品的区分。结果表明,ATLD结合近红外光谱技术可以很好地实现对批次样品及牌号样品的分析,有望为复杂样品在线质量分析提供新的手段。