论文部分内容阅读
摘 要:2014年以来,中关村作为国家级高新技术产业开发区,在过去的10年里经济保持着高速增长,呈现出效益提升、结构优化等积极特点。本文基于聚簇平行坐标可视化的方法对高新技术园区监测数据开展了多维交互可视化分析,应用了平行坐标的建立等可视化方法辅助解释了园区监测数据的特征、规律等。结果分析表明用聚簇平行坐标可视化展示的交互效果,对园区经济监测数据有了更明确地理解,更好的帮助用户进行数据理解、信息获取和决策判断。
关键词:平行坐标 监测 可视化 聚簇
一、引言
随着社会发展的进步,信息技术、云计算、互联网的迅猛发展,大量的数据信息随之产生,体现在生活的各个方面,比如交通、医学、新闻、气象等方面,数据的复杂度也有所增加,一般的用户对这些复杂的数据并不能从中获取到有用的信息,甚至对数据特点和数据结构也不能清晰的认识和分析,为了了解这些隐含数据的特点和关系及潜在的发展趋势,可视化技术应运而生。
本文进一步探讨了平行坐标表示法,它们对于确定变量之间的关系和相互依赖性的维度之间的相关性的表示特别有用。这种表示方法很容易并入大量的变量,可用于分析和可视化。聚簇平行坐标可视化在平行坐标可视化的基础上,对数据进行初步处理后,将其展示出来,再在现有图形的基础上用几何法等对其实现聚簇,并加以颜色和透明度进行区分和聚类分析。
基于高新技术监测数据的平行坐标可视化方面,在该领域目前研究的并不是很多。雷君虎等人研究了将PCA和平行坐标结合起来对高维数据可视化展示;刘荷花等将平行坐标技术应用到雷达、卫星等上面,结合军事领域的数据融合;周晓峥等人提出了在平行坐标的基础上进行聚簇分析,主要采用的就是刷技术。本文将采用聚簇的算法来实现高新技术园区监测数据的平行坐标可视化。
二、概述
Shuo-Yan Chou等人归纳了多维可视化的基本方法,通过使用笛卡尔坐标系和平行坐标系之间的对称性,建立并实现了平行坐标系中的扫描线方法。Takayuki Itoh等提出通过通过在低维空间构造一组相互关联维度的数据可视化图,交互选择尺寸保证高维空间的数据可视化维度尽可能有效。张鲁营等人提出了多维数据可视化的方法研究,提出了维度重排的算法加以研究。平行坐标展示多维数据是将以二维形式展示,线的密度能呈现不同数据在不同维度上的属性关系,而线条的密集程度也代表了不同数据之间的维度关系,交叉的线条代表了在该属性之间的对立,趋势相近的线段可以看成在该指标属性类别相同的数据的聚类。
三、平行坐标可视化的模型
1.平行坐标可视化的原理。平行坐标是可将高维数据集显示为与平行轴交叉的折线集合,这种可视化更好地使得能够观察到成对的尺寸之间的相关性,表示多维数据集比较典型的几何投影可视化方法,将多维数据点映射到平面上的折线中挖掘出相关的信息就相对来说易理解。在欧几里得平面中,平行坐标是以一条跨越n条平行轴的线表示,建立了使用平行坐标提高视觉识别特定图案的能力的条件,即靠近任意行的点集合。它的基本思想使用n个等间隔的垂直轴来表示n个变量,以一组平行等距的水平或垂直的坐标轴对应属性1到n,每个维度对应一个坐标轴,轴线的范围由大到小均匀分布,且坐标轴的顺序可以由用户交互调节或者采用遗传算法进行自动优化,每一个数据项都可以依据其属性取值而用一条跨越N条平行轴的折线段表示,即每一个n维的矢量通过坐标轴上的一条折线记为(d1,d2…dn),折线同基本坐标轴相交,折线在基本坐标轴上的交点就是该属性对应的取值。通过这种方式,n维空间上的数据点和平行坐标中的折线之间就建立起了一一对应关系。我们在分析高新技术领域每个技术领域的指标属性时候,可以根据平行坐标的基本思想,来展示每个技术领域的属性值的范圍及在各个属性值上的取值。
2.平行坐标可视化的数据处理。
0-1标准化:将数据线性变换,使数据处于0到1之间
其中max为数据最大值,min为数据最小值。
3.聚簇可视化算法。聚簇可视化主要是根据线段之间的关系,线条之间的疏密程度来加以聚类,来减少由于线段的复杂程度引起的视觉上的混乱,通过能量函数来评估线条的状态,并使能量函数最小化的过程就实现了聚簇。
能量函数的表示方法:
=
表示整个系统的能量,表示引力能量项,表示曲率能量项。
引力能量项。
引力能量项表示的是线段之间的吸引关系,是相邻的线段尽可能并拢,减少错综复杂引起的视觉上的混乱,计算公式:
表示第i条线在j控制点出收到的引力合力
4.聚簇的颜色和透明度。聚类原数据的属性对应着平行坐标的各坐标轴,聚类结果也作为一个属性对应着平行坐标系中数据曲线的颜色,如果数据属于同一聚类簇,那么数据就用相同颜色表示,如果不属于同一聚类簇,就用不同的颜色表示。将聚类结果和聚类的原数据使用同一平行坐标的方式显示后,当调用聚类算法得到聚类结果时,平行坐标需要对数据曲线进行实时更新。用户只要通过颜色变化就能知道哪些数据属于同一类,如果不同颜色的数据曲线不能分开,说明聚类结果中可能有的数据没有得到正确聚类,用平行坐标可把多维空间的数据集映射入二维平面,平行坐标表示可为数据特征的分析提供方便,可由平行坐标上发现各维属性之间的关联,数据分布的之间的差异和关联性等。由平行坐标表现出来的数据聚簇特征的重要性,有助于用户将局部数据的变化规律即历史数据的变化情况以及感兴趣的数据展示出来,在颜色空间上,可以单独围绕一个维度为参照,揭示高维数据空间数据模式的分布。
四、高新技术园区监测数据的应用分析
高新技术园区在经济发展中存在多种指标体系,对每个园区或者每个技术领域都包含有很多条数据信息,这些信息可以反映园区或者技术领域投入(成本)、产出(收益)、效率(发展、盈利、偿债能力),每条数据信息的指标有反映园区收益的如利润总额、总收入、出口总额、实缴税费总额、工业总产值、利润总额、专利申请数、专利授权数等这些指标。我们可以选择该园区或者技术领域跨度在一定时间段内的发展历史趋势或者变化,在一定用平行坐标可视化展示,在聚簇算法的基础上减少线条的交叉、覆盖现象,再根据簇的密度在颜色和透明度的基础上加以区分和认知。
五、结语
在基于聚簇的平行坐标可视化分析方法研究的基础上,对高新技术园区的历史数据用聚簇平行坐标可视化展示有助于将历史数据的变化趋势有效的展示出来,在平行坐标的基础上再进行聚簇,一定程度上减少了线条的交叉和混乱,更加全面有效的对数据进行分析研究,将使数据变化趋势以更有效的方式呈现给用户,为我们全面理解数据,做出预测预警的决策起到重要作用。
参考文献:
[1]周晓峥,刘勘,孟波. 多维数据集的平行坐标表示及聚簇分析[J] 计算机工程, 2002, (01), 95-96.
[2]王开军.多维数据的聚类结果可视化技术综述[J].福建师范大学学报,2012,28(4):115-124.
[3]雷君虎,杨家红.基于PCA和平行坐标的高维数据可视化[J]计算机工程, 2011, (01), 48-50.
[4]刘荷花,贾进文. 基于平行坐标的多维复杂数据可视化方法研究[J]火力与指挥控制, 2014, (12), 130-134.
[5]王瑞松,大数据环境下时空多维数据可视化研究[D] 浙江大学2016.
作者简介:宋月明,硕士研究生。研究方向:数据可视化。陈晓,硕士研究生。研究方向:运营管理。
※基金项目:本文受促进高校内涵发展--研究生科技创新项目--2017年经管学院研究生科技创新项目“中关村经济运行效率测定及提升研究”(项目编号:5121723503)资助.
关键词:平行坐标 监测 可视化 聚簇
一、引言
随着社会发展的进步,信息技术、云计算、互联网的迅猛发展,大量的数据信息随之产生,体现在生活的各个方面,比如交通、医学、新闻、气象等方面,数据的复杂度也有所增加,一般的用户对这些复杂的数据并不能从中获取到有用的信息,甚至对数据特点和数据结构也不能清晰的认识和分析,为了了解这些隐含数据的特点和关系及潜在的发展趋势,可视化技术应运而生。
本文进一步探讨了平行坐标表示法,它们对于确定变量之间的关系和相互依赖性的维度之间的相关性的表示特别有用。这种表示方法很容易并入大量的变量,可用于分析和可视化。聚簇平行坐标可视化在平行坐标可视化的基础上,对数据进行初步处理后,将其展示出来,再在现有图形的基础上用几何法等对其实现聚簇,并加以颜色和透明度进行区分和聚类分析。
基于高新技术监测数据的平行坐标可视化方面,在该领域目前研究的并不是很多。雷君虎等人研究了将PCA和平行坐标结合起来对高维数据可视化展示;刘荷花等将平行坐标技术应用到雷达、卫星等上面,结合军事领域的数据融合;周晓峥等人提出了在平行坐标的基础上进行聚簇分析,主要采用的就是刷技术。本文将采用聚簇的算法来实现高新技术园区监测数据的平行坐标可视化。
二、概述
Shuo-Yan Chou等人归纳了多维可视化的基本方法,通过使用笛卡尔坐标系和平行坐标系之间的对称性,建立并实现了平行坐标系中的扫描线方法。Takayuki Itoh等提出通过通过在低维空间构造一组相互关联维度的数据可视化图,交互选择尺寸保证高维空间的数据可视化维度尽可能有效。张鲁营等人提出了多维数据可视化的方法研究,提出了维度重排的算法加以研究。平行坐标展示多维数据是将以二维形式展示,线的密度能呈现不同数据在不同维度上的属性关系,而线条的密集程度也代表了不同数据之间的维度关系,交叉的线条代表了在该属性之间的对立,趋势相近的线段可以看成在该指标属性类别相同的数据的聚类。
三、平行坐标可视化的模型
1.平行坐标可视化的原理。平行坐标是可将高维数据集显示为与平行轴交叉的折线集合,这种可视化更好地使得能够观察到成对的尺寸之间的相关性,表示多维数据集比较典型的几何投影可视化方法,将多维数据点映射到平面上的折线中挖掘出相关的信息就相对来说易理解。在欧几里得平面中,平行坐标是以一条跨越n条平行轴的线表示,建立了使用平行坐标提高视觉识别特定图案的能力的条件,即靠近任意行的点集合。它的基本思想使用n个等间隔的垂直轴来表示n个变量,以一组平行等距的水平或垂直的坐标轴对应属性1到n,每个维度对应一个坐标轴,轴线的范围由大到小均匀分布,且坐标轴的顺序可以由用户交互调节或者采用遗传算法进行自动优化,每一个数据项都可以依据其属性取值而用一条跨越N条平行轴的折线段表示,即每一个n维的矢量通过坐标轴上的一条折线记为(d1,d2…dn),折线同基本坐标轴相交,折线在基本坐标轴上的交点就是该属性对应的取值。通过这种方式,n维空间上的数据点和平行坐标中的折线之间就建立起了一一对应关系。我们在分析高新技术领域每个技术领域的指标属性时候,可以根据平行坐标的基本思想,来展示每个技术领域的属性值的范圍及在各个属性值上的取值。
2.平行坐标可视化的数据处理。
0-1标准化:将数据线性变换,使数据处于0到1之间
其中max为数据最大值,min为数据最小值。
3.聚簇可视化算法。聚簇可视化主要是根据线段之间的关系,线条之间的疏密程度来加以聚类,来减少由于线段的复杂程度引起的视觉上的混乱,通过能量函数来评估线条的状态,并使能量函数最小化的过程就实现了聚簇。
能量函数的表示方法:
=
表示整个系统的能量,表示引力能量项,表示曲率能量项。
引力能量项。
引力能量项表示的是线段之间的吸引关系,是相邻的线段尽可能并拢,减少错综复杂引起的视觉上的混乱,计算公式:
表示第i条线在j控制点出收到的引力合力
4.聚簇的颜色和透明度。聚类原数据的属性对应着平行坐标的各坐标轴,聚类结果也作为一个属性对应着平行坐标系中数据曲线的颜色,如果数据属于同一聚类簇,那么数据就用相同颜色表示,如果不属于同一聚类簇,就用不同的颜色表示。将聚类结果和聚类的原数据使用同一平行坐标的方式显示后,当调用聚类算法得到聚类结果时,平行坐标需要对数据曲线进行实时更新。用户只要通过颜色变化就能知道哪些数据属于同一类,如果不同颜色的数据曲线不能分开,说明聚类结果中可能有的数据没有得到正确聚类,用平行坐标可把多维空间的数据集映射入二维平面,平行坐标表示可为数据特征的分析提供方便,可由平行坐标上发现各维属性之间的关联,数据分布的之间的差异和关联性等。由平行坐标表现出来的数据聚簇特征的重要性,有助于用户将局部数据的变化规律即历史数据的变化情况以及感兴趣的数据展示出来,在颜色空间上,可以单独围绕一个维度为参照,揭示高维数据空间数据模式的分布。
四、高新技术园区监测数据的应用分析
高新技术园区在经济发展中存在多种指标体系,对每个园区或者每个技术领域都包含有很多条数据信息,这些信息可以反映园区或者技术领域投入(成本)、产出(收益)、效率(发展、盈利、偿债能力),每条数据信息的指标有反映园区收益的如利润总额、总收入、出口总额、实缴税费总额、工业总产值、利润总额、专利申请数、专利授权数等这些指标。我们可以选择该园区或者技术领域跨度在一定时间段内的发展历史趋势或者变化,在一定用平行坐标可视化展示,在聚簇算法的基础上减少线条的交叉、覆盖现象,再根据簇的密度在颜色和透明度的基础上加以区分和认知。
五、结语
在基于聚簇的平行坐标可视化分析方法研究的基础上,对高新技术园区的历史数据用聚簇平行坐标可视化展示有助于将历史数据的变化趋势有效的展示出来,在平行坐标的基础上再进行聚簇,一定程度上减少了线条的交叉和混乱,更加全面有效的对数据进行分析研究,将使数据变化趋势以更有效的方式呈现给用户,为我们全面理解数据,做出预测预警的决策起到重要作用。
参考文献:
[1]周晓峥,刘勘,孟波. 多维数据集的平行坐标表示及聚簇分析[J] 计算机工程, 2002, (01), 95-96.
[2]王开军.多维数据的聚类结果可视化技术综述[J].福建师范大学学报,2012,28(4):115-124.
[3]雷君虎,杨家红.基于PCA和平行坐标的高维数据可视化[J]计算机工程, 2011, (01), 48-50.
[4]刘荷花,贾进文. 基于平行坐标的多维复杂数据可视化方法研究[J]火力与指挥控制, 2014, (12), 130-134.
[5]王瑞松,大数据环境下时空多维数据可视化研究[D] 浙江大学2016.
作者简介:宋月明,硕士研究生。研究方向:数据可视化。陈晓,硕士研究生。研究方向:运营管理。
※基金项目:本文受促进高校内涵发展--研究生科技创新项目--2017年经管学院研究生科技创新项目“中关村经济运行效率测定及提升研究”(项目编号:5121723503)资助.