R语言在数据可视化中的应用

来源 :中国科技博览 | 被引量 : 0次 | 上传用户:liaodoctor
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘要]介绍了R语言在数据可视化方面的应用,并结合R语言自带的几个数据集,通过R语言的ggplot绘图函数,实现了通过R语言绘制散点图、线图、直方图、箱线图以及条形图的实例。
  [关键词]R语言;数据可视化;gg3310t;统计分析
  中图分类号:TP391.41 文献标识码:A 文章编号:1009-914X(2015)05-0127-01
  1引言
  近年来,随着社会的不断进步以及信息技术的不断应用,人类在生产、生活以及创造的过程中产生以及积累了大量的数据,如何有效的处理和挖掘这些数据已经成为时下的技术热点,R语言作为一种简单易学、功能强大的开源统计分析软件,迅速被业界广泛使用;同时,从各类数据库中取出来的数据是越来越大量且繁杂的,如果不借助图,比较难以展示出来,所以,数据的可视化就成了一件很重要的事;R语言自带了强大的绘图系统,为数据的图形化展示提供了便捷的工具,从而也使得R成为了一款优秀的数据可视化工具。
  2数据可视化
  如何分析所获得的大量、复杂和多维的数据呢?研究表明,人类获得的关于外在世界的信息80%以上是通过视觉通道获得的,因此答案就是要提供像人眼一样的直觉的、交互的和反应灵敏的可视化环境,可见,发展数据可视化技术具有重要的意义。
  可视化,也称科学计算可视化(Visualization in Scientific Computing),其定义为:“可视化是一种计算方法,它将符号或数据转换为直观的几何图形,便于研究人员观察其模拟和计算过程。可视化包括了图像综合,这也就是说,可视化是用来解释输入到计算机中的图像数据,并从复杂的多维数据中生成图像的一种工具。”数据可视化本身是一门复杂的学科,包含了很多方面;现代的数据可视化(Data visualization)技术指的是运用计算机图形学和图像处理技术,将数据转换为图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术。它涉及到计算机图形学、图像处理、计算机辅助设计、计算机视觉及人机交互技术等多个领域。随着科学技术的发展,数据可视化概念也在不断地扩展,它不仅包括科学计算数据的可视化,而且包括工程数据和测量数据的可视化。
  3 R语言简介
  R是用于统计分析、统计绘图的语言和操作环境,是属于GNU系统的一个自由、免费、源代码开放的软件。是贝尔实验室(BeflLaboratories)的RickBeeke、JohnChamberS和AllanWilkS开发的s语言的一种实现,提供了一系列统计和图形显示工具。s语言则是目前比较流行的统计软件S-PLUS的基础。R的创始人RosSIhaka和RobertGentleman,由于这两位“R之父”的名字都是以R开头,所以就命令为R。
  4 R的绘图系统
  在数据挖掘过程中,当完成数据的导入、清洗,并将其汇总統计以后,接下来的工作就是绘图,R有三种不同的绘图系统可供选择:
  第一个图形系统base图形系统是最古老的系统,在R的存在初期它就已经存在了,base图形很容易上手,但其所绘制的图形有时需要大量的修改,而且它很难扩展到新的图标类型中,通过对base中的一些限制进行开发形成了grid图形系统,从而使绘图更加灵活,grid允许你在绘图时涉及系统底层,可以具体指定在哪里画哪个点、线或矩形。
  第二个图形系统lattice建立在grid系统之上,它为所有常见的图表类型提供了高级函数,它有两个突出的特点是base图形系统所不具备的。首先,每个绘图的结果能被保存到一个变量中,而不仅仅是绘制在屏幕上;第二,它可以在一个格子中包含多个面板,因此你能把数据分成不同的类别并比较各组之间的差异。
  第三个图形系统ggplot2是也建立在grid系统之上,gg代表granlnlar of graphics(制图语法),其目标在于把图形分解成不同的组块。ggplot2图形系统是功能最强大的图形系统,你几乎可可以使用ggplot2做任何事情,但它与其他图形系统相比需要更多的计算。
  5通过R实现数据可视化
  数据可视化本身是一门复杂的学科,包含了很多方面,在R中实现数据可视化,目前主要是指数据的统计图展示。在展示时,分为低维数据的展示和多维数据的展示。由于ggplot2图形系统是R中功能最强大的图形系统,使用ggplot2展示的数据会更加美观和方便,所以本文在展示R中的各类统计图时选用ggplot2图形系统。
  在使用ggplot2之前,需要先安装并载入该包:
  >install.packages(“ggplot2”)
  >library(ggplot2)
  5.1散点图
  散点图是展示在回归分析中,数据点在直角坐标系平面上的分布图。它用于研究两个连续变量之间的关系,是一种最常见的统计图形。
  R语言自带的数据carsi记录了1920年代汽车速度对刹车距离的影响,通过使用R语言中的散点图绘图函数,我们可以清楚的看出刹车距离在不同车速情况下的分布情况:
  >ggplot(data=cars,aes(x=speed,y=dist))+geom point()
  5.2线图
  如果想研究连续变量如何随特定参数变化,线图往往比散点图更加容易理解。
  以R自带的preasure数据为例,该数据记录了温度随着气压的升高而的变化规律。通过R语言的线图绘图函数,将气压的升高与温度变化曲线进行绘图,形可直观的展示出,气压从零开始升高时,对温度的影响巨大,但随着气压达到一定程度,其对温度的影响作用是逐渐变弱的:
  >ggplot(data=pressure,aes(x=pressure,y=temperature))+geom line()
  5.3直方图
  直方图(Histogram)又称质量分布图。是一种统计报告图,由一系列高度不等的纵向条纹或线段表示数据分布的情况。一般用横轴表示数据类型,纵轴表示分布情况。
  以r语言自带的数据beaverl为例,该数据记录了持续对一只海狸每109钟进行体温监测的数据,共114条数据,为了便于观察海狸正常的体温分布,我们可以使用R语言的绘图函数绘制直方图来进行观察:
  >ggplot(beaverl,aes(temp))+geom_bistogram(binwidth=0.1)
  6小结
  本文通过介绍数据可视化的相关知识,并选取部分R语言自带的数据集,将这些数据以散点图、线图、直方图、箱线图以及条形图的形式进行数据可视化展示,体现出了R语言在数据可视化中的应用以及R语言在绘图方面的基础功能,同时,值得一提的是,R语言作为一种开源的统计分析语言,其免费、共享、易学以及功能丰富的软件包支持的特性,决定了其广泛的应用前景和应用价值,本文仅是简单介绍其在绘图方面的应用,希望可以起到抛砖引玉的作用,从而引起大家对于R语言的学习兴趣。
其他文献
[摘要]本篇文章主要论述对化工工艺设计的基本理论,其包括有化工工艺的主要特点及分类等进行深入的研究,笔者结合诸多工作经验和讨论了化工工艺设计中常见的安全问题及其控制的基本策略。  [关键词]化工工艺设计;安全问题;控制  中图分类号:TH162 文献标识码:A 文章编号:1009-914X(2015)05-0116-01  随着社会经济的不断向前发展,当前化工工艺安全越来越受到重视,所以在化工工艺
期刊
[摘要]纯梁采油厂自成立以来,已经走过30余年,而纯梁油区的电网建设随着采油开发不断扩大,截止到2012年底,所辖线路东西部合计90余条,其中:6KV配电所共6座,临时变两所;10kV电网为地方供电,线路总长度超过700公里、变压器约8000台。  [关键词]电网改造 技术对策  中图分类号:U665.12 文献标识码:A 文章编号:1009-914X(2015)05-0114-01  1、纯梁油
期刊
[摘要]铁路运输一直都是我国主要的运输方式之一,铁路货车周转时间的长短直接决定了铁路货车的运货效率和铁路行业经济效益的好坏,同时也是反映铁路运输组织工作效率的一个重要参考指标。因此,如何缩短铁路货车的周转时间,提升运输效率成为制约铁路事业发展的关键因素之一。本研究將主要探讨一下如何压缩铁路货车周转时间的问题。  [关键词]压缩;铁路货车;周转时间  中图分类号:F53 文献标识码:A 文章编号:1
期刊
[摘要]社会的发展对于电力能源的需求在增加,对10KV配电运行的可靠性要求也相应提高,10KV配网由于长期暴漏在外,容易发生故障,给生产和生活造成极大影响。因此,文章就对造成10KV配电运行故障的进行了分析,并提出了防治措施。  [关键词]农村;10kv;故障分析;防治措施  中图分类号:V242.4+3 文献标识码:A 文章编号:1009-914X(2015)05-0117-01  近几年来,随
期刊
[摘要]胜利采油厂经过近年来不断探索,解剖分析每次施工,在优选封堵材料,拓展封堵技术,优化封堵方式方面,总结形成了一定的工作思路,从而达到灰浆封堵封窜施工规范化,收到了很好的应用效果。针对油水井出现水淹层、油气枯竭层、套管损坏、套管外窜通等问题,常利用液体压力挤压灰浆使之进入地层缝隙或多孔地层,或是利用液体输送灰浆在井筒套管内留一定长度的灰浆柱,从而实现封堵封窜。  [关键词]胜利采油厂;地层缝隙
期刊
[摘要]近年来,伴随着人类社会的不断进步和通信网络的飞速发展,被称为通信系统心脏的通信电源也发生了革命性的跃变。通信电源设备不断地更新换代,使得通信电源设备的管理和维护也变得越来越重要。通信电源系统工作方式不正常或设备故障,都将会造成部分通信系统故障,甚至导致整个市县的通信系统瘫痪。因此,为了更高质量地确保通信电源设备运行的稳定与可靠以及整个通信网络的畅通,通信电源集中监控系统便应运而生,它的出现
期刊
[摘要]近些年来,我们在从事可燃及有毒有害气体报警器的现场检定过程中,必须使用甲烷、异丁烷、一氧化碳、硫化氢等标准气体,因为报警器的安装位置遍布油田各个角落,而标准气瓶在运输过程中容易互相发生碰撞,在检定工作过程中容易碰倒在地或碰撞设备管件的情况时有发生,经常导致标准气瓶嘴、仪表盘、减压阀碰坏,标准气体从钢瓶内泄漏出来,造成环境的污染。所以每次检定工作中不得不投入相当多的精力对其进行保护,造成资源
期刊
[摘要]我国的可开发风能资源位居世界第一,截止到2014年底我国的并网风力发电装机容量已达到9000万千瓦,相当于五个三峡水电站的装机容量,也是目前世界上开发风能资源最多的国家。随着风力发电比例的不断提升,为改善我国能源结构提供了很大的帮组,但大规模风力发电机组的并网发电,对电网也产生了前所未有的挑战,电网稳定性、大规模脱网事故、甚至有可能发生局部电力系统瓦解。因此风力发电机组大规模并网产生的问题
期刊
[摘要]负载均衡技术是建立在现有的网络结构之上,提供一种有效的方法扩展服务器带宽和增加吞吐量,加强网络数据处理能力,提高网络的灵活性和可用性。为用户提供更好的访问质量,提高服务器响应速度,避免网络关键部位出现单点失效。  [关键词]负载均衡;吞吐量;网络数据  中图分类号:D631 文献标识码:A 文章编号:1009-914X(2015)05-0124-01  一、负载均衡的工作模式  假设在同一
期刊
[摘要]目前,全世界的军事、经济、社会、文化各个方面都越来越依赖于计算机网络,人类社会对计算机的依赖程度达到了空前的记录。由于计算机网络的脆弱性,这种高度的依赖性使国家的经济和国防安全变得十分脆弱,一旦计算机网络受到攻击而不能正常工作,整个社会就会陷入危机。故此,网络的安全措施应是能全方位地针对各种不同的威胁和脆弱性,这样才能确保网络信息的保密性、完整性和可用性。  [关键词]网络安全;数据加密;
期刊