论文部分内容阅读
摘要:本文主要介绍了在统计学发展的历史中出现的三种数据分析方法,分别为描述性数据分析、推断性数据分析和探索性数据分析。文章主要概括了这三种数据方法的发展历史和几位杰出的统计学家为此做出的贡献。
关键词:描述数据分析;推断数据分析;探索数据分析
统计分析的形式随时代的推移而变化着,但是“从数据中提取一切信息”或者“归纳和揭示”作为统计分析的目的却一直没有改变。统计学还没有成熟为一个具有完整稳固基础的知识领域。在一定时期内某些统计方法被普遍应用,但是随时问的推移这些方法又会被更时尚的方法所取代。尽管有很多争论,统计方法和应用领域却在不断扩大。具有绘图功能的计算机已经对数据分析产生了巨大的影响。在我们这样一个“大数据”时代,统计分析不仅没有显得落后,更是这个时代让统计分析的重要性凸显出来了。让我们对数据分析的发展历史作一概述。
一、描述数据分析
(一)描述数据分析的分类
1.算术型描述。算术型描述主要分为中心趋势的描述、离散程度的描述和分布形状的描述。分布的中心趋势是区分不同总体的重要数字特征,在统计学中占有重要地位。对于通常的统计变量,较大和较小的观测值出现的频率较低,大多数的观测值密集分布在中心趋势,使数据呈现出向中心靠拢或聚集的态势,这就是变量分布的中心趋势。
2.图表型描述。利用图表的形式可以是数据清晰明了的呈现出来。常用的图表形式有分类统计表、条形图和饼形图,其中需要值得注意的是频率分布。对于异族分布,由于各组次数的多少还受到组距不同的影响,各组的频数可能会随着组距的扩大而增加,随着组距的缩小而减小。为消除异矩分组所造成的这种影响需计算频数密度(或称次数密度)。各组频数密度与各组组距乘积之和等于总体单位数,各组频率密度与各组组距乘积之和等于1。
二、推断数据分析
(一)推断数据分析的发展史
卡·皮尔森是第一位试图沟通DDA与IDA的统计学家。他利用基于和直方图的描述分析所得到的结果进行有关分布族的推断。为此目的,卡·皮尔森发明了第一个也许也可以说最重要的一个检验准则——卡方统计量,以此用于检验已知数据是否来自某一特定的随机模型(概率分布族),或已知数据是否与某一给定的假设一致,这种检验准则“预示了作出决策的一类新方法”。
20~30年代期间,费歇产生了一系列异常丰富的统计思想。在他1922年的一篇通过特定的随机模型来分析数据的奠基性论文中,费歇奠定了“理论统计学”的基础。费歇发展了基于正态假定下对各种假设的精确的小样本检验,提出了利用标准检验值表来帮助检验,通常这些统计表给出了5%和1%时的检验临界值。
20世纪二三十年代,由费歇所开创的通过实验设计来收集数据的方法也有了系统的发展,这一系列的发展使人们能够通过方差分析这样特定的方法来分析数据,并对数据做出有世纪意义的解释:实验设计指导如何分析数据,而数据分析显示实验设计的结构。
进入20世纪40年代后可以看到抽样调查方法的发展。这种方法是调查者依据最忌选取的个体对一组问题的反应所获取的信息来收集大量的数据,这种情形下,确保数据的准确性(不带偏差、记录上的错误、反应错误)和数据的可比较性(在研究者之间,或不同的调查方法之间)这样一些问题被认为是至关重要的。马哈拉诺比斯或许是第一个认识到在抽样过程中上述提到的偏差、记录误差等是不可避免的,甚至比抽样误差更严重,他在提出在设计调查过程时,应该采取一些步骤和方法来控制和查明这些误差,并发展适合的检验程序,在收集数据时检测出过失误差(异常值)和不相容的值。
(二)假设检验及其概述
1.卡·皮尔森的拟合优度检验与费歇的显著性检验
皮尔森于1900年在《哲学杂志》上发表了一篇文章,皮尔森要讨论的问题是要建立一个准则,以判定一组相关变量与其或然值的偏差,可否被合理地解释为是由于随机抽取所致。
即我们在初等教科书中熟悉的公式。由于在计算中只用了n个偏差,自由度只有n而非n+1。
关于“显著性检验”的实质,费歇提出以下几个解释:
(1)有一个命题,称之为“零假设”或“解消假设”。其含义是:所关心的应不存在(不存在即为O,“效应不存在”即“解消”了“有效应”的说法)。设计的唯一目的,是寻求否定“零假设”的证据。
(2)可找到一个统计量T,使其值可按对否定零假设的证据强弱来排序,比如,T值越大,否定零假设的证据越强。零假设要足够确定,使得它成立的前提下,可算出T的正确分布。这个分布的根据就包含在试验的具体设计中。
(3)若在试验中找到的T为t,则≥t的一切T值,是比本实验所得值更倾向于否定零假设的全部情况。计算概率P(T≥t|零假设成立)=p。如p很小,則说明:在零假设成立时,极不容易得到≥t的一切T值,而现在居然得到了,因而是“零假设不对”的有力证据。
(三)参数估计及其概述
概述
参数估计是数理统计学中与假设检验并未两大基础分支,分别研究统计推断两个基本形式之一,其理论和方法,为数理统计学中众多的专门和应用分支所依据和使用。
自19世纪末以来,确切的说是从1894年到1912年,又发生了两件大事,使参数估计在形成一个近代意义下的分支的征途中,又上了一个台阶,一件就是自1894年卡·皮尔森提出他的分布族,及为确定族中参数而提出的矩估计法。另一件事是1912年费歇在“关于拟合频率曲线的一个绝对准则”一文中提出了极大似然估计法。这两件工作的意义在于:它不像此前的估计法只是一些可用的特定场合的方法(如频率、样本均值之类的),而是有了一个一般框架。
三、探索数据分析
(一)探索数据分析及其发展史
在了解了统计学中两个公认的分支——描述统计学和理论统计学之后,应用统计学者们感到十分需要的是清楚那些有缺陷的数据,这样的数据分析合适的随机概率模型或是模型族,使其不但能解决特殊问题而且能开发进一步调查研究的新课题。
(二)两种数据文化
有两种文化在使用的统计模型,从数据中得出结论。一个假定该数据生成的场地对给定的随机数据模型。另一种是使用算法模型和处理机制,未知的数据。一直致力于统计团体几乎独占使用的数据模型。
1.数据建模文化
这种文化中的分析开始是,假定一个随机数据模型在黑匣子里面。比如,一个常见的数据模型是数据由一个从回复变量f=(预测变量、随机噪音、参数)得到独立所形成的。从数据和模型中可以评估参数的价值,接着用于信息和预测。
模型验证:是的一不是。使用合适度检验和剩余检测。
估计的人群:98%是统计学家
2.算法建模文化
在这种文化分析中的分析主要考虑盒子的复杂性和未知性。他们的途径是找到一个函数f(x)——一个算法对x进行操作,来预测回复y。
关键词:描述数据分析;推断数据分析;探索数据分析
统计分析的形式随时代的推移而变化着,但是“从数据中提取一切信息”或者“归纳和揭示”作为统计分析的目的却一直没有改变。统计学还没有成熟为一个具有完整稳固基础的知识领域。在一定时期内某些统计方法被普遍应用,但是随时问的推移这些方法又会被更时尚的方法所取代。尽管有很多争论,统计方法和应用领域却在不断扩大。具有绘图功能的计算机已经对数据分析产生了巨大的影响。在我们这样一个“大数据”时代,统计分析不仅没有显得落后,更是这个时代让统计分析的重要性凸显出来了。让我们对数据分析的发展历史作一概述。
一、描述数据分析
(一)描述数据分析的分类
1.算术型描述。算术型描述主要分为中心趋势的描述、离散程度的描述和分布形状的描述。分布的中心趋势是区分不同总体的重要数字特征,在统计学中占有重要地位。对于通常的统计变量,较大和较小的观测值出现的频率较低,大多数的观测值密集分布在中心趋势,使数据呈现出向中心靠拢或聚集的态势,这就是变量分布的中心趋势。
2.图表型描述。利用图表的形式可以是数据清晰明了的呈现出来。常用的图表形式有分类统计表、条形图和饼形图,其中需要值得注意的是频率分布。对于异族分布,由于各组次数的多少还受到组距不同的影响,各组的频数可能会随着组距的扩大而增加,随着组距的缩小而减小。为消除异矩分组所造成的这种影响需计算频数密度(或称次数密度)。各组频数密度与各组组距乘积之和等于总体单位数,各组频率密度与各组组距乘积之和等于1。
二、推断数据分析
(一)推断数据分析的发展史
卡·皮尔森是第一位试图沟通DDA与IDA的统计学家。他利用基于和直方图的描述分析所得到的结果进行有关分布族的推断。为此目的,卡·皮尔森发明了第一个也许也可以说最重要的一个检验准则——卡方统计量,以此用于检验已知数据是否来自某一特定的随机模型(概率分布族),或已知数据是否与某一给定的假设一致,这种检验准则“预示了作出决策的一类新方法”。
20~30年代期间,费歇产生了一系列异常丰富的统计思想。在他1922年的一篇通过特定的随机模型来分析数据的奠基性论文中,费歇奠定了“理论统计学”的基础。费歇发展了基于正态假定下对各种假设的精确的小样本检验,提出了利用标准检验值表来帮助检验,通常这些统计表给出了5%和1%时的检验临界值。
20世纪二三十年代,由费歇所开创的通过实验设计来收集数据的方法也有了系统的发展,这一系列的发展使人们能够通过方差分析这样特定的方法来分析数据,并对数据做出有世纪意义的解释:实验设计指导如何分析数据,而数据分析显示实验设计的结构。
进入20世纪40年代后可以看到抽样调查方法的发展。这种方法是调查者依据最忌选取的个体对一组问题的反应所获取的信息来收集大量的数据,这种情形下,确保数据的准确性(不带偏差、记录上的错误、反应错误)和数据的可比较性(在研究者之间,或不同的调查方法之间)这样一些问题被认为是至关重要的。马哈拉诺比斯或许是第一个认识到在抽样过程中上述提到的偏差、记录误差等是不可避免的,甚至比抽样误差更严重,他在提出在设计调查过程时,应该采取一些步骤和方法来控制和查明这些误差,并发展适合的检验程序,在收集数据时检测出过失误差(异常值)和不相容的值。
(二)假设检验及其概述
1.卡·皮尔森的拟合优度检验与费歇的显著性检验
皮尔森于1900年在《哲学杂志》上发表了一篇文章,皮尔森要讨论的问题是要建立一个准则,以判定一组相关变量与其或然值的偏差,可否被合理地解释为是由于随机抽取所致。
即我们在初等教科书中熟悉的公式。由于在计算中只用了n个偏差,自由度只有n而非n+1。
关于“显著性检验”的实质,费歇提出以下几个解释:
(1)有一个命题,称之为“零假设”或“解消假设”。其含义是:所关心的应不存在(不存在即为O,“效应不存在”即“解消”了“有效应”的说法)。设计的唯一目的,是寻求否定“零假设”的证据。
(2)可找到一个统计量T,使其值可按对否定零假设的证据强弱来排序,比如,T值越大,否定零假设的证据越强。零假设要足够确定,使得它成立的前提下,可算出T的正确分布。这个分布的根据就包含在试验的具体设计中。
(3)若在试验中找到的T为t,则≥t的一切T值,是比本实验所得值更倾向于否定零假设的全部情况。计算概率P(T≥t|零假设成立)=p。如p很小,則说明:在零假设成立时,极不容易得到≥t的一切T值,而现在居然得到了,因而是“零假设不对”的有力证据。
(三)参数估计及其概述
概述
参数估计是数理统计学中与假设检验并未两大基础分支,分别研究统计推断两个基本形式之一,其理论和方法,为数理统计学中众多的专门和应用分支所依据和使用。
自19世纪末以来,确切的说是从1894年到1912年,又发生了两件大事,使参数估计在形成一个近代意义下的分支的征途中,又上了一个台阶,一件就是自1894年卡·皮尔森提出他的分布族,及为确定族中参数而提出的矩估计法。另一件事是1912年费歇在“关于拟合频率曲线的一个绝对准则”一文中提出了极大似然估计法。这两件工作的意义在于:它不像此前的估计法只是一些可用的特定场合的方法(如频率、样本均值之类的),而是有了一个一般框架。
三、探索数据分析
(一)探索数据分析及其发展史
在了解了统计学中两个公认的分支——描述统计学和理论统计学之后,应用统计学者们感到十分需要的是清楚那些有缺陷的数据,这样的数据分析合适的随机概率模型或是模型族,使其不但能解决特殊问题而且能开发进一步调查研究的新课题。
(二)两种数据文化
有两种文化在使用的统计模型,从数据中得出结论。一个假定该数据生成的场地对给定的随机数据模型。另一种是使用算法模型和处理机制,未知的数据。一直致力于统计团体几乎独占使用的数据模型。
1.数据建模文化
这种文化中的分析开始是,假定一个随机数据模型在黑匣子里面。比如,一个常见的数据模型是数据由一个从回复变量f=(预测变量、随机噪音、参数)得到独立所形成的。从数据和模型中可以评估参数的价值,接着用于信息和预测。
模型验证:是的一不是。使用合适度检验和剩余检测。
估计的人群:98%是统计学家
2.算法建模文化
在这种文化分析中的分析主要考虑盒子的复杂性和未知性。他们的途径是找到一个函数f(x)——一个算法对x进行操作,来预测回复y。