论文部分内容阅读
图布局是信息可视化领域中重要的问题之一,有效的图布局可以辅助用户更直观清晰地认识网络数据的结构,同时也有助于帮助用户发现问题,使得用户可以通过进一步的交互挖掘出其中潜在的信息。图布局算法被广泛应用于社交网络、知识图谱、深度学习等领域。目前用于网络数据的布局算法主要分为两类,基于传统力引导的算法和基于数据降维方法的算法。基于力引导的布局算法是最早被用于图布局的算法,也是目前应用最广泛的布局算法。它们通过建立物理模型来实现布局,简单且易实现,强调减少布局中的边交叉,并使得节点均匀分布;基于数据降维的算法通过将图空间的分布嵌入到低维空间来实现布局,更关注网络数据的邻域特征,力求保持图空间中节点的相对位置信息完整。随着数据规模和结构复杂性的增长,现有的图布局算法受限于其时间复杂或空间复杂度,越来越难以生成令人满意的布局。为了快速有效地构建大规模图数据的布局,本文以基于数据降维的布局算法为主要研究对象,结合可视化评估标准,针对大规模图数据如何高效布局等关键问题展开了研究,并提出了一个新的布局算法。我们在现有的基于降维方法的布局算法基础上,结合稀疏距离矩阵、负采样技术和多层次布局策略,实现了在时间复杂度与空间复杂度上均达到线性并可以扩展到大规模数据集的布局算法。本文通过在1 1种真实数据集上与7种经典有效的布局算法的对比实验,验证了我们的算法在运行时间与内存使用方面优于其他算法,并且在不同类型的数据集上均能生成有效的布局。在包含1564794个节点和56300条边的数据集上,本文算法的速度是FM3算法的1.8倍。同时本文算法仅占用3GB内存,而FM3使用了近56GB内存。