论文部分内容阅读
随着大数据时代的到来,人类在生产和生活活动中所创造出的数据量以前所未有的速度一直增长。数据可视化技术将大量的数据转化为可供人们直接观测的图形,不仅让人能快速理解数据的表面信息,同时也能更加轻松的推演出数据表象之下所隐含的逻辑关系,这是对这海量的数据进行高效处理,并从中获取有价值的信息的一大重要手段。平行坐标图是诸多的多维数据可视化方法中的一种。它将高维数据的多个维度一一映射为相互平行的多条坐标轴,同时将高维数据集显示为一组与平行坐标轴相交的折线。然而当数据维度过高时,平行坐标图有着需要的显示空间过大,有效性高度依赖于维度的顺序等缺陷。虽然有学者提出了将高维数据集划分按维度相关性划分出多个子集以构造多个低维平行坐标图的思路,但现有的方法中,大多思路是使用经典的MDS算法进行布局并以此划分相关维度的子集,这种布局方式可能导致维度间距离的失真从而带来误差。故本文针对此问题做了研究,并提出一种新的布局方法。基于MDS算法的缺点,本文选择利用Isomap算法来代替MDS算法进行布局。Isomap算法中对长距离的计算已被固有测地距离的估计所取代,因此用该算法计算得到的布局结果,能减小距离的失真带来误差,从反映出维度间的更准确的相关性强弱关系。具体算法如下所示。首先,将数据集每一个维度看作一个向量,并根据向量间的距离,利用Isomap算法将维度映射成点,布局在二维平面上。然后根据需求设定阈值,并利用BronKerbosch算法筛选出具有相关性的维度子集。其次,利用贪婪算法思想对子集中的维度进行排序,并构造出多个低维平行坐标图。为了增强视觉有效性表达,按样本类别将折线着色,以提高平行坐标图的美观性及信息表达能力。本文选用两组数据集进行试验,实验结果表明,由Isomap算法布局所筛选出的维度子集,其维度间的相关性比MDS算法得到的维度子集相关程度更高。最后,归纳和总结了本文所做的工作,提出了研究方法仍存在的不足之处,并对本文接下来的研究方向和目标进行了展望。