论文部分内容阅读
[摘要]介绍了R语言在数据可视化方面的应用,并结合R语言自带的几个数据集,通过R语言的ggplot绘图函数,实现了通过R语言绘制散点图、线图、直方图、箱线图以及条形图的实例。
[关键词]R语言;数据可视化;gg3310t;统计分析
中图分类号:TP391.41 文献标识码:A 文章编号:1009-914X(2015)05-0127-01
1引言
近年来,随着社会的不断进步以及信息技术的不断应用,人类在生产、生活以及创造的过程中产生以及积累了大量的数据,如何有效的处理和挖掘这些数据已经成为时下的技术热点,R语言作为一种简单易学、功能强大的开源统计分析软件,迅速被业界广泛使用;同时,从各类数据库中取出来的数据是越来越大量且繁杂的,如果不借助图,比较难以展示出来,所以,数据的可视化就成了一件很重要的事;R语言自带了强大的绘图系统,为数据的图形化展示提供了便捷的工具,从而也使得R成为了一款优秀的数据可视化工具。
2数据可视化
如何分析所获得的大量、复杂和多维的数据呢?研究表明,人类获得的关于外在世界的信息80%以上是通过视觉通道获得的,因此答案就是要提供像人眼一样的直觉的、交互的和反应灵敏的可视化环境,可见,发展数据可视化技术具有重要的意义。
可视化,也称科学计算可视化(Visualization in Scientific Computing),其定义为:“可视化是一种计算方法,它将符号或数据转换为直观的几何图形,便于研究人员观察其模拟和计算过程。可视化包括了图像综合,这也就是说,可视化是用来解释输入到计算机中的图像数据,并从复杂的多维数据中生成图像的一种工具。”数据可视化本身是一门复杂的学科,包含了很多方面;现代的数据可视化(Data visualization)技术指的是运用计算机图形学和图像处理技术,将数据转换为图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术。它涉及到计算机图形学、图像处理、计算机辅助设计、计算机视觉及人机交互技术等多个领域。随着科学技术的发展,数据可视化概念也在不断地扩展,它不仅包括科学计算数据的可视化,而且包括工程数据和测量数据的可视化。
3 R语言简介
R是用于统计分析、统计绘图的语言和操作环境,是属于GNU系统的一个自由、免费、源代码开放的软件。是贝尔实验室(BeflLaboratories)的RickBeeke、JohnChamberS和AllanWilkS开发的s语言的一种实现,提供了一系列统计和图形显示工具。s语言则是目前比较流行的统计软件S-PLUS的基础。R的创始人RosSIhaka和RobertGentleman,由于这两位“R之父”的名字都是以R开头,所以就命令为R。
4 R的绘图系统
在数据挖掘过程中,当完成数据的导入、清洗,并将其汇总統计以后,接下来的工作就是绘图,R有三种不同的绘图系统可供选择:
第一个图形系统base图形系统是最古老的系统,在R的存在初期它就已经存在了,base图形很容易上手,但其所绘制的图形有时需要大量的修改,而且它很难扩展到新的图标类型中,通过对base中的一些限制进行开发形成了grid图形系统,从而使绘图更加灵活,grid允许你在绘图时涉及系统底层,可以具体指定在哪里画哪个点、线或矩形。
第二个图形系统lattice建立在grid系统之上,它为所有常见的图表类型提供了高级函数,它有两个突出的特点是base图形系统所不具备的。首先,每个绘图的结果能被保存到一个变量中,而不仅仅是绘制在屏幕上;第二,它可以在一个格子中包含多个面板,因此你能把数据分成不同的类别并比较各组之间的差异。
第三个图形系统ggplot2是也建立在grid系统之上,gg代表granlnlar of graphics(制图语法),其目标在于把图形分解成不同的组块。ggplot2图形系统是功能最强大的图形系统,你几乎可可以使用ggplot2做任何事情,但它与其他图形系统相比需要更多的计算。
5通过R实现数据可视化
数据可视化本身是一门复杂的学科,包含了很多方面,在R中实现数据可视化,目前主要是指数据的统计图展示。在展示时,分为低维数据的展示和多维数据的展示。由于ggplot2图形系统是R中功能最强大的图形系统,使用ggplot2展示的数据会更加美观和方便,所以本文在展示R中的各类统计图时选用ggplot2图形系统。
在使用ggplot2之前,需要先安装并载入该包:
>install.packages(“ggplot2”)
>library(ggplot2)
5.1散点图
散点图是展示在回归分析中,数据点在直角坐标系平面上的分布图。它用于研究两个连续变量之间的关系,是一种最常见的统计图形。
R语言自带的数据carsi记录了1920年代汽车速度对刹车距离的影响,通过使用R语言中的散点图绘图函数,我们可以清楚的看出刹车距离在不同车速情况下的分布情况:
>ggplot(data=cars,aes(x=speed,y=dist))+geom point()
5.2线图
如果想研究连续变量如何随特定参数变化,线图往往比散点图更加容易理解。
以R自带的preasure数据为例,该数据记录了温度随着气压的升高而的变化规律。通过R语言的线图绘图函数,将气压的升高与温度变化曲线进行绘图,形可直观的展示出,气压从零开始升高时,对温度的影响巨大,但随着气压达到一定程度,其对温度的影响作用是逐渐变弱的:
>ggplot(data=pressure,aes(x=pressure,y=temperature))+geom line()
5.3直方图
直方图(Histogram)又称质量分布图。是一种统计报告图,由一系列高度不等的纵向条纹或线段表示数据分布的情况。一般用横轴表示数据类型,纵轴表示分布情况。
以r语言自带的数据beaverl为例,该数据记录了持续对一只海狸每109钟进行体温监测的数据,共114条数据,为了便于观察海狸正常的体温分布,我们可以使用R语言的绘图函数绘制直方图来进行观察:
>ggplot(beaverl,aes(temp))+geom_bistogram(binwidth=0.1)
6小结
本文通过介绍数据可视化的相关知识,并选取部分R语言自带的数据集,将这些数据以散点图、线图、直方图、箱线图以及条形图的形式进行数据可视化展示,体现出了R语言在数据可视化中的应用以及R语言在绘图方面的基础功能,同时,值得一提的是,R语言作为一种开源的统计分析语言,其免费、共享、易学以及功能丰富的软件包支持的特性,决定了其广泛的应用前景和应用价值,本文仅是简单介绍其在绘图方面的应用,希望可以起到抛砖引玉的作用,从而引起大家对于R语言的学习兴趣。
[关键词]R语言;数据可视化;gg3310t;统计分析
中图分类号:TP391.41 文献标识码:A 文章编号:1009-914X(2015)05-0127-01
1引言
近年来,随着社会的不断进步以及信息技术的不断应用,人类在生产、生活以及创造的过程中产生以及积累了大量的数据,如何有效的处理和挖掘这些数据已经成为时下的技术热点,R语言作为一种简单易学、功能强大的开源统计分析软件,迅速被业界广泛使用;同时,从各类数据库中取出来的数据是越来越大量且繁杂的,如果不借助图,比较难以展示出来,所以,数据的可视化就成了一件很重要的事;R语言自带了强大的绘图系统,为数据的图形化展示提供了便捷的工具,从而也使得R成为了一款优秀的数据可视化工具。
2数据可视化
如何分析所获得的大量、复杂和多维的数据呢?研究表明,人类获得的关于外在世界的信息80%以上是通过视觉通道获得的,因此答案就是要提供像人眼一样的直觉的、交互的和反应灵敏的可视化环境,可见,发展数据可视化技术具有重要的意义。
可视化,也称科学计算可视化(Visualization in Scientific Computing),其定义为:“可视化是一种计算方法,它将符号或数据转换为直观的几何图形,便于研究人员观察其模拟和计算过程。可视化包括了图像综合,这也就是说,可视化是用来解释输入到计算机中的图像数据,并从复杂的多维数据中生成图像的一种工具。”数据可视化本身是一门复杂的学科,包含了很多方面;现代的数据可视化(Data visualization)技术指的是运用计算机图形学和图像处理技术,将数据转换为图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术。它涉及到计算机图形学、图像处理、计算机辅助设计、计算机视觉及人机交互技术等多个领域。随着科学技术的发展,数据可视化概念也在不断地扩展,它不仅包括科学计算数据的可视化,而且包括工程数据和测量数据的可视化。
3 R语言简介
R是用于统计分析、统计绘图的语言和操作环境,是属于GNU系统的一个自由、免费、源代码开放的软件。是贝尔实验室(BeflLaboratories)的RickBeeke、JohnChamberS和AllanWilkS开发的s语言的一种实现,提供了一系列统计和图形显示工具。s语言则是目前比较流行的统计软件S-PLUS的基础。R的创始人RosSIhaka和RobertGentleman,由于这两位“R之父”的名字都是以R开头,所以就命令为R。
4 R的绘图系统
在数据挖掘过程中,当完成数据的导入、清洗,并将其汇总統计以后,接下来的工作就是绘图,R有三种不同的绘图系统可供选择:
第一个图形系统base图形系统是最古老的系统,在R的存在初期它就已经存在了,base图形很容易上手,但其所绘制的图形有时需要大量的修改,而且它很难扩展到新的图标类型中,通过对base中的一些限制进行开发形成了grid图形系统,从而使绘图更加灵活,grid允许你在绘图时涉及系统底层,可以具体指定在哪里画哪个点、线或矩形。
第二个图形系统lattice建立在grid系统之上,它为所有常见的图表类型提供了高级函数,它有两个突出的特点是base图形系统所不具备的。首先,每个绘图的结果能被保存到一个变量中,而不仅仅是绘制在屏幕上;第二,它可以在一个格子中包含多个面板,因此你能把数据分成不同的类别并比较各组之间的差异。
第三个图形系统ggplot2是也建立在grid系统之上,gg代表granlnlar of graphics(制图语法),其目标在于把图形分解成不同的组块。ggplot2图形系统是功能最强大的图形系统,你几乎可可以使用ggplot2做任何事情,但它与其他图形系统相比需要更多的计算。
5通过R实现数据可视化
数据可视化本身是一门复杂的学科,包含了很多方面,在R中实现数据可视化,目前主要是指数据的统计图展示。在展示时,分为低维数据的展示和多维数据的展示。由于ggplot2图形系统是R中功能最强大的图形系统,使用ggplot2展示的数据会更加美观和方便,所以本文在展示R中的各类统计图时选用ggplot2图形系统。
在使用ggplot2之前,需要先安装并载入该包:
>install.packages(“ggplot2”)
>library(ggplot2)
5.1散点图
散点图是展示在回归分析中,数据点在直角坐标系平面上的分布图。它用于研究两个连续变量之间的关系,是一种最常见的统计图形。
R语言自带的数据carsi记录了1920年代汽车速度对刹车距离的影响,通过使用R语言中的散点图绘图函数,我们可以清楚的看出刹车距离在不同车速情况下的分布情况:
>ggplot(data=cars,aes(x=speed,y=dist))+geom point()
5.2线图
如果想研究连续变量如何随特定参数变化,线图往往比散点图更加容易理解。
以R自带的preasure数据为例,该数据记录了温度随着气压的升高而的变化规律。通过R语言的线图绘图函数,将气压的升高与温度变化曲线进行绘图,形可直观的展示出,气压从零开始升高时,对温度的影响巨大,但随着气压达到一定程度,其对温度的影响作用是逐渐变弱的:
>ggplot(data=pressure,aes(x=pressure,y=temperature))+geom line()
5.3直方图
直方图(Histogram)又称质量分布图。是一种统计报告图,由一系列高度不等的纵向条纹或线段表示数据分布的情况。一般用横轴表示数据类型,纵轴表示分布情况。
以r语言自带的数据beaverl为例,该数据记录了持续对一只海狸每109钟进行体温监测的数据,共114条数据,为了便于观察海狸正常的体温分布,我们可以使用R语言的绘图函数绘制直方图来进行观察:
>ggplot(beaverl,aes(temp))+geom_bistogram(binwidth=0.1)
6小结
本文通过介绍数据可视化的相关知识,并选取部分R语言自带的数据集,将这些数据以散点图、线图、直方图、箱线图以及条形图的形式进行数据可视化展示,体现出了R语言在数据可视化中的应用以及R语言在绘图方面的基础功能,同时,值得一提的是,R语言作为一种开源的统计分析语言,其免费、共享、易学以及功能丰富的软件包支持的特性,决定了其广泛的应用前景和应用价值,本文仅是简单介绍其在绘图方面的应用,希望可以起到抛砖引玉的作用,从而引起大家对于R语言的学习兴趣。