论文部分内容阅读
许多自然科学研究都需要对环境数据进行分析,这些环境数据通常是通过部署在研究区域(室内、森林和海洋等)的无线传感器网络来收集的。在其中,数据集的完整性和准确性都是基本要求,决定着科研结果的可靠性。而在数据收集的过程中,数据丢失现象普遍存在,这就需要对丢失了的数据进行重构来获得完整的环境数据。在数据采集过程中,对丢失数据的重构是一项基本操作。有许多工作研究了各种应用场景下的数据丢失和重构问题,并提出了有针对性的数据恢复算法。但是,通过无线传感器网络采集到的数据,由于无线信道的不稳定性、多跳拓扑结构的干扰、数据爆发的拥塞、节点失效等影响,存在着特殊性。首先,其数据存在在其它应用场景下十分罕见的大规模丢失现象。再者,无线传感器网络数据集有着特殊的丢失模式,不能简单的被看成均匀的随机丢失。这些特殊性造成了为其它应用场景所设计的数据采集和恢复方案,在无线传感器网络场景下表现不佳。具体到数据重构问题,表现为恢复准确度低。针对这一问题,我们基于对实际数据集的分析,提出了一个新的基于压缩感知的数据恢复算法ESTI-CS。具体而言,我们开展了以下工作。首先,我们对Intel室内项目、绿野千传项目和海洋监测项目进行了数据挖掘,总结了无线传感器网络场景下的数据丢失模式,即随机丢失、块随机丢失、高频行元素丢失和连续行元素丢失。并进一步发掘出了这些数据集的共性特征,即低秩特征、时间相关性特征、空间相关性特征和多变量相关特征。其次,我们提出了改进了的时空压缩感知算法(environmental space timeimproved compressive sensing,ESTI-CS)。该算法基于对高冗余数据十分有效的压缩感知算法,并利用了我们通过观察获取到的无线传感器网络特有的数据特征来恢复丢失数据。更进一步,针对同一传感器网络通常可以收集到多个变量的应用现状,我们在ESTI-CS的基础上进行改进,设计了多变量ESTI-CS算法,专门针对多变量强数据相关性的场景。最后,通过实际数据驱动的验证,ESTI-CS和多变量ESTI-CS算法的表现优于现有的典型插值算法。无论数据集是均匀随机丢失亦或是符合传感器网络的丢失,我们的算法都具有优于其它算法的适应性。