基于SPSS的箱图在数据描述中的应用研究

来源 :中国管理信息化 | 被引量 : 0次 | 上传用户:xianxing599
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘 要]SPSS是世界上最早采用图形菜单驱动界面的统计软件,它集数据录入、整理、分析功能于一身。本文以学生成绩数据为例,介绍了SPSS制作4种箱图的方法和技巧,为教育和科研工作者提供一些参考。
  [关键词]SPSS;箱图;数据描述
  doi:10.3969/j.issn.1673 - 0194.2018.14.101
  [中图分类号]G40-03 [文献标识码]A [文章编号]1673-0194(2018)14-0-02
  随着云计算等技术的快速发展和互联网、物联网的广泛应用,人类迎来了大数据时代,而要管理和利用这些数据,就需要专门的技术与工具。常见的统计分析软件有SAS、SPSS、Minitab和Excel等。这些统计软件的功能和作用大同小异,各自有所侧重。其中的SAS和SPSS是目前在大型企业、各类院校以及科研机构中较为流行的两种统计软件。特别是SPSS,其界面友好、功能强大、易学、易用,包含了几乎全部尖端的统计分析方法,具备完善的数据定义、操作管理和开放的数据接口以及灵活、美观的统计图表制作。
  1 SPSS软件介绍
  SPSS为IBM公司推出的一系列用于统计学分析运算、数据挖掘、预测分析和决策支持任务的软件产品及相关服务的总称。统计图可以对数据的特征进行分析和描述,在探索的基础上对数据进行更为复杂的建模分析。利用SPSS软件可以绘制各种统计图,主要包括条形图、线性图、面积图等,不同图形可能有着不同的数据要求和适用环境,使用时一定要考虑每种统计图的功能和特点。
  SPSS中直接绘制统计图形的功能通过图形菜单实现,下设的子菜单有:图形构建程序、图形画板模板选择程序和旧对话框,本文主要介绍了旧对话框作图的方法。
  2 箱图在学生成绩描述中的应用
  统计图的使用,首先要满足的是“准确”。“准确”就是指使用恰当的统计图去描述数据。通常在描述定性数据时主要使用的有柱状图、条形图、饼图和环形图,反映的是定性变量的各个水平的频数分布或者占比;描述定量数据时主要使用的是散点图和箱图,反映的是数据的分布情况,包括对称性、是否有离群点等;对于时间序列数据则常使用折线图,反映指标随时间的变化趋势。同时,写好描述性文字,画完图要有适当的评述。撰写描述性文字可以分为两个层次:第一个层次叫作客观陈述,即描述统计图中的内容;第二个层次叫作合理推断,即解读统计图背后的原因,猜测数据为什么呈现出某种规律。本文以箱图为例,说明SPSS统计图在数据描述中的应用。
  2.1 箱图的介绍
  箱图是描述定量数据最常用的统计图之一,主要用来描述一个定性变量和一个定量变量的关系,用于对比不同组别在某一定量变量上的平均水平、波动水平等的差异。在箱图中,最上方和最下方的线段分别表示数据的最大值和最小值,其中箱图的上方和下方的线段分别表示第三四分位数和第一四分位数,箱图中间的粗线段表示数据的中位数。另外,箱图中在最上方和最下方的星号和圆圈分别表示样本数据中的极端值。
  打开图形菜单,选择旧对话框命令下的箱图命令,SPSS将弹出“箱图”导航对话框。如图1所示。
  在“箱图”导航对话框中,可以选择箱图的类型,并定义箱图中数据的表达方式。SPSS将箱图大致分为以下两种类型:
  ①简单,一个图形中有多个箱,各个箱相互独立;②复式条形图,一个图形中有多个箱,多个箱之间按照分组变量分成若干组,相同组别的箱集中放置,以方便用户进行比较。
  “图表中的数据为(Data in Chart are)”栏,可以选择如下的数据表达类型。
  ①个案组摘要。用分类值作图,箱图中每一条线代表观测量的一个分类。②各个变量的摘要。用变量值作图,箱图中每一条线代表一个变量。通过以上两个箱图类型和两个数据表达方式的不同搭配,SPSS可以生成4种不同的箱图。
  2.2 4种箱图的具体应用
  2.2.1 以个案组摘要为数据表达类型的简单箱图
  在图1中选择箱图类型为“简单”,数据表达类型为“个案组摘要”,单击定义。打开“定义简单箱图:个案组摘要设置对话框”,在该对话框中将数学选入“变量”框中,班级选入“类别轴”框中,然后单击确定,即可在结果输出窗口中得到各班级数学成绩箱图,如图2所示。
  通过图2可以看出三班数学成绩平均水平较低且有离群点,一班和二班相差较小,一班两极分化较为严重。
  2.2.2 以各个变量的摘要为数据表达类型的简单箱图
  在图1中选择箱图类型为“简单”,数据表达类型为“各个变量的摘要”,单击定义。打开“定义简单箱图:各个变量的摘要”设置对话框,在该对话框中将各科成绩均选入“框的表征”列表框中,然后单击确定,即可在结果输出窗口中得到各科成绩箱图,如图3所示。
  通过图3可以看出,英语和历史成绩平均分较高,且历史成绩较集中,物理成绩较差且分散。
  2.2.3 以個案组摘要为数据表达类型的复式条形图
  在图1中选择箱图类型为“复式条形图”,数据表达类型为“个案组摘要”,单击定义。打开“定义复式箱图:个案组摘要”设置对话框,在该对话框将物理选入“变量”框中,班级选入“类别轴”,性别选入“X轴上的聚类”,然后单击确定,即可在结果输出窗口中得到各班级男女生物理成绩箱图,如图4所示。
  通过图4可以看出,三班男生物理成绩高于其他班男生,二班女生物理成绩高于其他班女生。相比较而言一班物理成绩较分散,两极分化严重。
  2.2.4 以各个变量的摘要为数据表达类型的复式条形图
  在图1中选择箱图类型为“复式条形图”,数据表达类型为“各个变量的摘要”,单击定义。打开“定义复式箱图:各个变量的摘要”设置对话框,在该对话框将数学、语文、英语选入“框的表征”列表框中,“性别”选入类别轴,然后单击确定,即可在结果输出窗口中得到男女生语数英成绩箱图,如图5所示。
  通过图5可以看出,男生数学和英语成绩均高于女生,而女生语文成绩要高于男生。
  3 结 语
  数据描述是对数据最基本的处理方式,难度也不大,但是在完整的分析中又不可或缺。SPSS在数据分析和作图方面都是很好的软件,本文主要介绍了箱图作图方法和技巧,其他类型图的作图方法类似。图形的制作和数据分析都需要在实际应用中反复摸索,不断总结,才能熟能生巧。
  主要参考文献
  [1]武松,潘发明.SPSS统计分析大全[M].北京:清华大学出版社,2014.
  [2]姜忠尉.统计分析软件SPSS的特点和应用分析[J].中国证券期货,2012(4).
其他文献
【正】 苏联作家康斯坦丁·巴乌斯托夫斯基(1892—1968)是一位我国读者熟悉并且喜爱的作家。他的作品朴素、无华、洋溢着诗情画意、散发着生活芬芳,给人以深刻的印象。近
论文在简要介绍某天线罩相关要素的设计方法的同时, 对天线罩肋杆电流率的计算进行了详细论述.综述了常见天线罩板块划分方法.指出了天线罩研究中所存在的问题以及今后主要研
论文提出了一种基于选通成像技术的激光告警系统,提高了系统的分辨率。同步选通成像可以抑制背景噪声,大幅度提高了信噪比。从工程应用需求考虑,进行了实用性设计。根据设计参数
高压断路器是电力系统中最重要的开关设备之一。它在电网设备入网或退网时的切换操作中能够起到开关控制的作用,因此在电力设备或电路发生故障时,可以快速通过高压断路器的开
【正】 《安徽大学学报》(哲社版)1985年第2期发表吴章胜的文章《普列汉诺夫文艺批评思想探析》,把普氏的文艺批评思想归纳为三个方面: A.以伏伦斯基为代表的俄国唯心主义批
【正】 今年十月十二日至十月十八日,由武汉大学法语系和法国研究所联合主办的《外国文学名著辞典》定稿会在武汉举行。在十月十二日的首次会议上,武汉市委宣传部副部长李少
【正】 关于教学体系国内东方文学的教学大多按历史顺序分为上古、中古、近代和现代四个部分,各部分先讲概述,再重点讲几个国家的作家作品。这种讲法虽便于学生了解整个东方
传感器布置方案对系统的故障诊断特性有非常大的影响。针对传统的基于系统模型进行传感器布局方法研究存在的系统解析冗余关系(ARR)复杂,难以推导形成具体的数学表达式的问题
1931年4月17日,少共(共青团)苏区中央局在江西省宁都县青塘成立,中共苏区中央局委员顾作霖兼任书记。少共苏区中央局的成立使一度停顿的苏区共青团工作又重新恢复起来,并使之发展
论文针对甚低频通信信道,从发信机功率合成原理与辐射天线特点入手,分析了甚低频信道对数字调制方式的要求,通过研究几种常见调制方式的误码率性能、功率谱密度及信号占用带