论文部分内容阅读
多维数据可视化是将多维数据展现在低维空间中,使得用户更容易发现隐藏在数据中的某些特征,对于数据分析和知识发现具有重要意义。为了保证可视化结果的可靠性,需要在降维过程中最大程度地保持数据的结构信息。本文基于HyperMap的降维可视化方法,从优化的角度提出改进算法,一方面优化目标空间坐标轴的选取,另一方面优化组合权重,以得到最佳的可视化结果,保证可视化过程中最大程度地保持原始数据的结构信息。进一步将可视化方法与聚类方法相结合,形成基于HyperMap的可视化聚类方法。最后,将本文的可视化聚类方法应用到教育数据分析和我国创意产业数据分析中,结果表明本文方法具有较好的实用价值。本文的主要研究工作如下:(1)在介绍FastMap方法和HyperMap方法的基础上,分析了FastMap方法和HyperMap方法的优缺点。其中,HyperMap方法是FastMap方法的改进。这两种方法的本质都是将多维原始数据转化成保持数据结构的低维数据,再将低维数据进行可视化,通过可视化图形观察原始数据的结构信息。降维过程主要分为两步,首先通过选择枢纽点确定目标空间中的坐标轴,然后计算数据集中的样本点在这些坐标轴上的投影坐标。所有样本点在某个坐标轴上的坐标形成一个特征向量。FastMap方法和HyperMap方法主要存在两方面的问题,首先,这两种方法均不能选择最佳的枢纽点,因而不能选出最佳的目标空间的坐标轴。其次,只给出信息损失程度的度量方法,没有指明如何使信息损失达到最小。(2)提出了改进的HyperMap可视化方法并将其与聚类方法结合,进而形成可视化聚类方法。鉴于FastMap方法和HyperMap方法存在的问题,本文主要进行了两方面的改进。一方面,选择数据集中距离最大的点作为枢纽点,从而选出最佳的坐标轴。另一方面,使用应力函数建立优化模型,通过对模型参数权重的优化,求出最佳的权重组合,从而保证可视化过程信息损失达到最小。另外,可视化结果可以沿任意方向旋转,以消除不同的观察角度对可视化结果的影响。数值实验表明,改进的HyperMap方法提高了HyperMap方法的性能,可以有效应用于多维数据的可视化分析中。将可视化与聚类方法相结合,形成可视化聚类方法。数值实验表明本文可视化聚类方法具有可行性和有效性。(3)将本文的可视化聚类方法应用到教育数据分析和创意产业数据分析中。阐述教育数据分析中的分类指导问题,并完成数据处理、可视化聚类、分类指导时间制定的过程,为解决分类指导问题提供参考依据。另外,对我国60个主要城市的创意产业数据进行可视化分析,对创意产业总体数据进行排序和群组划分。对生成的经营状况数据进行可视化分析。实验结果表明,本文的可视化聚类方法可以直观地展示数据结构信息,并可以结合聚类方法提高聚类的准确性与合理性,对于分析实际数据,具有一定的实用价值。