论文部分内容阅读
近红外光谱分析技术具有无损、检测速度快等特点,广泛地应用在过程分析领域。该技术检测产生的近红外光谱数据量大,但单个近红外光谱文件小(小于1MB)、信息量低,对海量近红外光谱大数据的分析挖掘,最好的方法是借助云计算。在现有的云计算中,Hadoop云计算是比较流行的大数据处理平台之一。用Hadoop处理近红外光谱大数据,需考虑Hadoop架构安全。Hadoop默认使用64MB数据分块存储云端数据,近红外光谱数据的单文件远小于Hadoop数据分块。因此,在Hadoop云端的近红外光谱数据分块上,存在有多个完整的近红外光谱单文件,给云端近红外光谱数据安全造成威胁。针对上述近红外光谱数据在Hadoop云端存在的安全问题,论文对Hadoop架构和近红外光谱大数据特点进行了深入研究,提出了Hadoop架构下近红外光谱大数据安全机制。针对海量的近红外光谱数据,建立近红外光谱数据的关键波段集数学模型,区分和简化海量近红外光谱数据中关键波段区数据和其他数据。设计二分关键波段集检测算法,高效检测出海量近红外光谱单文件中的关键波段集。算法可以人工设定程序对光谱文件中关键波段集的检测范围及步长,并对检测到的关键波段集进行加密保护,在光谱数据文件中形成加密和非加密数据并存状态。关键波段集检测加密完后,采用兼容Hadoop分块操作的LZO字典压缩算法对近红外光谱数据进行压缩合并,并上传到Hadoop集群保存。Hadoop架构下的近红外光谱大数据安全机制,在不降低Hadoop集群性能的前提下,对客户端海量近红外光谱数据进行了适合Hadoop文件管理的安全设计,保证了上传到Hadoop云端的近红外光谱大数据安全。在烟叶原料近红外光谱信息共享系统运行中表明,论文的安全机制设计是可行的。