论文部分内容阅读
随着物联网等信息技术的发展,在农业生产领域产生和积累了大量的数据,为农业数据处理提供了丰富的数据来源。然而,由于受农业生产成本和复杂的农业生产环境等因素的影响,数据中也包含了大量的劣质数据,极大降低了数据的可用性。如何发现海量数据中的异常数据是农业数据处理过程中首先要解决的问题。本文从农业数据处理中对数据预处理的需求出发,研究了农业传感器数据和近红外光谱数据的异常检测方法。主要研究内容包括:(1)在单传感器数据异常检测方法研究的基础上着重研究了多传感器数据的异常检测方法。传感器数据除具有无限、快速等典型的数据流特征外,还具有时间相关性和空间相关性等特点。针对传感器数据的特点,本文在研究单传感器数据异常检测方法的基础上,针对传感器数据的时间相关性和空间性等特点,研究了多传感器数据的异常检测方法。提出了一种多传感器数据的异常检测框架,框架包括在线异常检测和离线异常源识别两个阶段。为方便对异常点来源的识别,在传统异常点分类方法的基础上提出了一种新的分类方法。基于以上研究,设计了基于邻差和聚类相结合的多传感器异常检测算法和基于相关关系的异常源识别算法,并通过实验进行验证。实验结果表明,本文提出的算法可有效实现对多传感器数据中异常点的检测及异常点来源的识别。在实验数据集中,异常点来源的识别准确率达95.8%。(2)研究了近红外光谱定量分析中异常样本的检测方法。近红外光谱分析由于其快速、无损等特点,已广泛应用于农产品的品质检测、土壤元素含量检测等领域。但另一方面近红外光谱具有信噪比低、易受测量环境干扰等问题,异常样本的存在进一步影响了预测模型的准确性。与常规的数据不同,近红外光谱数据具有典型的高维特征,且各维属性之间具有明显的关联关系。本文通过理论推导得到近红外光谱定量分析中的光谱距离和化学值之间的关系,并基于该结论设计了一种基于XY变量联合的ODXY异常检测算法。通过实验结果表明,ODXY算法相对于传统的异常检测方法具有对异常样本具有更好的检测能力和更好的泛化能力。根据NIR光谱的叠加性,在ODXY算法的基础上经理论进一步推导得到近红外光谱多组分分析时光谱距离和所有样本的化学值之间的关系,并提出一种专门用于近红外光谱多组分分析的异常样本检测算法。经实验证明:在NIR光谱多组分定量分析中,MODXY法相对于其他方法具有更好的异常样本识别能力。同时经实验表明:ODXY法和MODXY法具有一定的适用范围,它们更适合于待测组分的含量值相对标准偏差较大的情况。