论文部分内容阅读
在当今大数据时代下,数据压缩技术的研究与发展日益成熟,并应用在生活中的各个方面。随着雷达体制的发展与电子侦察的盛行导致了与日俱增的全脉冲数据量,而市面上流行的通用压缩算法并不能很好的对全脉冲数据进行压缩,因此,研究一种对全脉冲数据进行无损压缩的算法就势在必行。本文设计了一个基于聚类分析的雷达全脉冲数据压缩系统,实现对全脉冲数据的无损压缩功能。本文主要研究了聚类压缩系统的几个关键技术:首先,分析了几种具有代表性的聚类方法,对每种算法进行测试和结果比较,选择了算法速度快、伸缩性好的K均值聚类;其次,对聚类处理之后的数据要进行熵编码,分析对比了常用的无损压缩编码方式,包括针对数值和文本的压缩方法,选择了区间编码;再次,将聚类和编码串联起来形成一个系统进行测试,对其中K均值聚类算法的缺陷提出了一种处理的方法;最后,尝试整个K均值聚类在GPU上的并行化,主要是通过数据分块并行实现,并有较好的效果。本文的主要特点有以下几点:(1)处理的数据结构较新,全脉冲数据是一种较为新型的雷达数据格式,每个数据对象拥有5个参数,分别是到达时间(TOA),脉宽(PW),幅值(PA),载频(CF)和方位角(DOA)。其数据源是无人机侦察时产生的对每个侦察目标的信息,全脉冲数据中的一些数据会对应着同一个目标。这样这些数据之间就存在着很强的相关性,本文利用这种相关性将全脉冲数据进行无损压缩。(2)聚类算法主要用于信号分选领域,主要功用是识别数据内部结构,将数据或对象的集合划分成不同的类簇。本文将聚类算法应用在数据压缩领域,将数据集聚类之后提取每一个类簇中的中心值和其余数据点相对中心值的差值再做处理,拓宽了聚类算法的应用范围。(3)尝试K均值聚类在GPGPU上的并行计算。异构计算平台是近几年较为热门的课题之一,GPGPU是将CPU的逻辑控制功能与GPU的强大浮点计算功能结合在一起的异构平台。本文试行了K均值聚类的并行化,取得了较好的效果。本文设计的聚类压缩系统经测试,算法对全脉冲数据有较好的压缩效果。针对一个152MB的全脉冲数据,压缩率能够达到48.1%;同时,在输入数据大小为2000KB时,K均值聚类并行速度比串行提高了1.65倍。