论文部分内容阅读
人工嗅觉系统,也称电子鼻,是一种模拟人的嗅觉系统工作原理而设计的新型仿生检测仪器,具有快速稳定、成本低廉和无损检测等优势。随着计算科学的快速发展,利用统计学和机器学习等方法对人工嗅觉系统的信号中相关信息进行数据挖掘,从而实现对复杂样本定量和定性分析,已成为研究的热点之一。分类是人工嗅觉系统数据挖掘技术主要的类型之一。常规的分类方法只给出预测结果,缺乏对预测结果的可靠性评估,即对预测结果的可信程度的评估以及对该评估有效性的保障。概率预测算法,如Naive Bayes, Logistic Regression等,可以提供预测结果正确的概率。然而,这些算法过度依赖样本分布模型的假设,一旦假设的模型不正确,则预测的概率不准确,可靠性评估的有效性无法保证。分类正确率是系统整体预测结果可靠性的评价指标,但由于气敏传感器漂移等因素导致,人工嗅觉系统最初建立的模型在一段时间后性能很有可能会下降,因此可靠性评估的有效性无法保障。一致性预测(Conformal prediction)和韦恩预测(Venn machine)方法是最近提出的用于预测结果的可靠性评估的机器学习算法。这两种方法都是很有弹性的算法框架,任何机器学习算法经过改造都可以作为他们的底层算法。他们既可以为单个预测结果也可以为整体预测结果提供可靠性评估。只要样本满足简单的独立同分布假设(I.I.D assumption),则可靠性评估的有效性从理论上得到保障。人参在中国传统医学中极具药用价值,但市场中掺假和以次充好的情况频发。人参鉴别通常依据专家组的判断,鉴定过程费时费力,且鉴定结果的可靠性依赖专家的经验。精油是自然界植物中提取挥发性芳香物质,在日常生活中应用广泛且种类繁多。基于分析化学方法的检测过程复杂且成本较高。肺癌已成为癌症死亡的主要原因,死亡数量逐年增加。肺癌诊断最权威的方法是活体组织切片。但该方法对人体伤害极大,且短时间内无法重复检测。研究表明,肺癌的早期筛查能够大大降低肺癌的死亡率.目前已有的检测技术复杂且费用高昂,难以大面积推广。因此,人参类别鉴定、精油类别鉴定和肺癌诊断都亟需一种性能稳定、快速简便、成本低廉且无损的检测方法。本文以人参类别鉴定、精油类别鉴定和肺癌诊断为例,对人工嗅觉系统预测的可靠性进行研究。本文使用自主设计的人工嗅觉系统,引入一致性预测和韦恩预测算法,在离线模式和在线模式下,对人参样本、精油样本和肺癌诊断样本进行预测,对预测结果进行可靠性评估,对可靠性评估的有效性进行分析和讨论。本研究对基于人工嗅觉系统的复杂样本预测的可靠性研究具有重要意义。除此之外,为了提高对人参样本的预测性能,本文将人工嗅觉系统与近红外光谱系统联用,提出一种特征级和一种决策级的数据融合方法进行数据挖掘。本文主要的研究内容和成果如下:设计以金属氧化物半导体气敏传感器阵列为核心的人工嗅觉软硬件系统,实现样本测试流程的自动控制。对人参、精油、和肺癌诊断样本进行制备和测试。针对人工嗅觉系统预测的可靠性研究,首次引入一致性预测算法框架。基于k-最近邻(KNN)和支持向量机(SVM)构造三种一致性预测器(CP-1NN, CP-3NN和CP-SVM),在离线和在线模式下对人参样本、精油样本进行预测,并与INN,3NN和SVM预测结果进行比较。离线模式下,一致性预测器进行强制预测(输出单一预测值)时,对人参和精油样本分别获得最优分类率为85.71%(CP-1NN)和96.17%(CP-1NN)。同时,一致性预测器为每个预测结果提供了可靠性评估。在线模式下,一致性预测器的预测结果中错误区域预测的比例不超过预设的显著性水平(由用户定义)。说明整体区域预测结果的可靠性评估是有效的。对三种一致性预测器在特定显著性水平下的预测结果的精确度以及空预测、单一预测和多预测的特点进行了分析和讨论。针对人工嗅觉系统的可靠性研究,首次引入韦恩预测算法框架。基于常规概率预测方法,Naive Bayes, Softmax Regression和Platt’s Method,构造三种韦恩预测器(VM-NB, VM-SR, VM-SVM),在离线和在线模式下对人参样本、肺癌诊断样本进行概率预测,同时与三种常规概率预测的预测结果在分类准确率和概率预测有效性方面进行比较。离线模式下,韦恩预测器对人参和肺癌诊断样本获得最优分类率分别为86.35%(VM-SVM)和97.22%(VM-SR)。同时,提供每个预测结果预测正确的概率区间。韦恩预测器概率预测结果的有效性指标优于相应的常规概率预测方法,且预测的概率区间和实际观测到预测正确的概率是一致的,说明了韦恩预测结果的有效性。韦恩预测的概率区间宽度非常窄,接近于单一概率预测值。在线模式下,韦恩预测器仍然输出可靠的概率区间,且随着训练集样本数量的增加,概率区间的分布不断上移,概率区间的宽度不断减小,即韦恩预测器的精确度不断提高。。将人工嗅觉系统与近红外光谱组成的混合系统用于人参样本的分类。针对两个系统特征数量不平衡的特点,提出加权的特征级数据融合方法,获得99.58%的分类率。结合概率预测和Dempster-Shafer证据理论提出决策级数据融合方法,获得99.24%的分类率。两种数据融合方法的分类率都高于任一单一系统(人工嗅觉系统90.18%,近红外光谱系统97.98%),且差异是统计显著的。