统计学中的源与流

来源 :商讯·公司金融 | 被引量 : 0次 | 上传用户:logoxx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:本文主要介绍了在统计学发展的历史中出现的三种数据分析方法,分别为描述性数据分析、推断性数据分析和探索性数据分析。文章主要概括了这三种数据方法的发展历史和几位杰出的统计学家为此做出的贡献。
  关键词:描述数据分析;推断数据分析;探索数据分析
  统计分析的形式随时代的推移而变化着,但是“从数据中提取一切信息”或者“归纳和揭示”作为统计分析的目的却一直没有改变。统计学还没有成熟为一个具有完整稳固基础的知识领域。在一定时期内某些统计方法被普遍应用,但是随时问的推移这些方法又会被更时尚的方法所取代。尽管有很多争论,统计方法和应用领域却在不断扩大。具有绘图功能的计算机已经对数据分析产生了巨大的影响。在我们这样一个“大数据”时代,统计分析不仅没有显得落后,更是这个时代让统计分析的重要性凸显出来了。让我们对数据分析的发展历史作一概述。
  一、描述数据分析
  (一)描述数据分析的分类
  1.算术型描述。算术型描述主要分为中心趋势的描述、离散程度的描述和分布形状的描述。分布的中心趋势是区分不同总体的重要数字特征,在统计学中占有重要地位。对于通常的统计变量,较大和较小的观测值出现的频率较低,大多数的观测值密集分布在中心趋势,使数据呈现出向中心靠拢或聚集的态势,这就是变量分布的中心趋势。
  2.图表型描述。利用图表的形式可以是数据清晰明了的呈现出来。常用的图表形式有分类统计表、条形图和饼形图,其中需要值得注意的是频率分布。对于异族分布,由于各组次数的多少还受到组距不同的影响,各组的频数可能会随着组距的扩大而增加,随着组距的缩小而减小。为消除异矩分组所造成的这种影响需计算频数密度(或称次数密度)。各组频数密度与各组组距乘积之和等于总体单位数,各组频率密度与各组组距乘积之和等于1。
  二、推断数据分析
  (一)推断数据分析的发展史
  卡·皮尔森是第一位试图沟通DDA与IDA的统计学家。他利用基于和直方图的描述分析所得到的结果进行有关分布族的推断。为此目的,卡·皮尔森发明了第一个也许也可以说最重要的一个检验准则——卡方统计量,以此用于检验已知数据是否来自某一特定的随机模型(概率分布族),或已知数据是否与某一给定的假设一致,这种检验准则“预示了作出决策的一类新方法”。
  20~30年代期间,费歇产生了一系列异常丰富的统计思想。在他1922年的一篇通过特定的随机模型来分析数据的奠基性论文中,费歇奠定了“理论统计学”的基础。费歇发展了基于正态假定下对各种假设的精确的小样本检验,提出了利用标准检验值表来帮助检验,通常这些统计表给出了5%和1%时的检验临界值。
  20世纪二三十年代,由费歇所开创的通过实验设计来收集数据的方法也有了系统的发展,这一系列的发展使人们能够通过方差分析这样特定的方法来分析数据,并对数据做出有世纪意义的解释:实验设计指导如何分析数据,而数据分析显示实验设计的结构。
  进入20世纪40年代后可以看到抽样调查方法的发展。这种方法是调查者依据最忌选取的个体对一组问题的反应所获取的信息来收集大量的数据,这种情形下,确保数据的准确性(不带偏差、记录上的错误、反应错误)和数据的可比较性(在研究者之间,或不同的调查方法之间)这样一些问题被认为是至关重要的。马哈拉诺比斯或许是第一个认识到在抽样过程中上述提到的偏差、记录误差等是不可避免的,甚至比抽样误差更严重,他在提出在设计调查过程时,应该采取一些步骤和方法来控制和查明这些误差,并发展适合的检验程序,在收集数据时检测出过失误差(异常值)和不相容的值。
  (二)假设检验及其概述
  1.卡·皮尔森的拟合优度检验与费歇的显著性检验
  皮尔森于1900年在《哲学杂志》上发表了一篇文章,皮尔森要讨论的问题是要建立一个准则,以判定一组相关变量与其或然值的偏差,可否被合理地解释为是由于随机抽取所致。
  即我们在初等教科书中熟悉的公式。由于在计算中只用了n个偏差,自由度只有n而非n+1。
  关于“显著性检验”的实质,费歇提出以下几个解释:
  (1)有一个命题,称之为“零假设”或“解消假设”。其含义是:所关心的应不存在(不存在即为O,“效应不存在”即“解消”了“有效应”的说法)。设计的唯一目的,是寻求否定“零假设”的证据。
  (2)可找到一个统计量T,使其值可按对否定零假设的证据强弱来排序,比如,T值越大,否定零假设的证据越强。零假设要足够确定,使得它成立的前提下,可算出T的正确分布。这个分布的根据就包含在试验的具体设计中。
  (3)若在试验中找到的T为t,则≥t的一切T值,是比本实验所得值更倾向于否定零假设的全部情况。计算概率P(T≥t|零假设成立)=p。如p很小,則说明:在零假设成立时,极不容易得到≥t的一切T值,而现在居然得到了,因而是“零假设不对”的有力证据。
  (三)参数估计及其概述
  概述
  参数估计是数理统计学中与假设检验并未两大基础分支,分别研究统计推断两个基本形式之一,其理论和方法,为数理统计学中众多的专门和应用分支所依据和使用。
  自19世纪末以来,确切的说是从1894年到1912年,又发生了两件大事,使参数估计在形成一个近代意义下的分支的征途中,又上了一个台阶,一件就是自1894年卡·皮尔森提出他的分布族,及为确定族中参数而提出的矩估计法。另一件事是1912年费歇在“关于拟合频率曲线的一个绝对准则”一文中提出了极大似然估计法。这两件工作的意义在于:它不像此前的估计法只是一些可用的特定场合的方法(如频率、样本均值之类的),而是有了一个一般框架。
  三、探索数据分析
  (一)探索数据分析及其发展史
  在了解了统计学中两个公认的分支——描述统计学和理论统计学之后,应用统计学者们感到十分需要的是清楚那些有缺陷的数据,这样的数据分析合适的随机概率模型或是模型族,使其不但能解决特殊问题而且能开发进一步调查研究的新课题。
  (二)两种数据文化
  有两种文化在使用的统计模型,从数据中得出结论。一个假定该数据生成的场地对给定的随机数据模型。另一种是使用算法模型和处理机制,未知的数据。一直致力于统计团体几乎独占使用的数据模型。
  1.数据建模文化
  这种文化中的分析开始是,假定一个随机数据模型在黑匣子里面。比如,一个常见的数据模型是数据由一个从回复变量f=(预测变量、随机噪音、参数)得到独立所形成的。从数据和模型中可以评估参数的价值,接着用于信息和预测。
  模型验证:是的一不是。使用合适度检验和剩余检测。
  估计的人群:98%是统计学家
  2.算法建模文化
  在这种文化分析中的分析主要考虑盒子的复杂性和未知性。他们的途径是找到一个函数f(x)——一个算法对x进行操作,来预测回复y。
其他文献
目的研究综合心理干预对中专学生心理健康状况的影响,为在校中专学生心理干预提供依据。方法将金华铁路司机学校学生500名随机分为干预组和对照组,对干预组进行为期8周的系统心
本文是关于中国商业银行资本约束问题的研究。研究的主要目标是:一是探索商业银行发展中资本约束问题的理论依据以及资本约束的现实表现;二是比较分析商业银行加强资本约束的
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
货币政策能否实现其调控经济的目标,是货币政策有效性的问题。货币政策有效性取决于货币政策的传导机制,它是指从运用货币政策工具到实现货币政策目标的作用过程。货币政策传
我国作为四大文明古国之一,几千年来的发展历程让我国创造出了非常多璀璨在历史长河中的文化及发明,在众多随着时代 而不断进行演变和发展的文化及发明中汉语言作为记载我国
基于粒子群优化的原理,利用标准测试函数对粒子群算法的参数设计进行实验分析,依据函数特性进行初步分类,揭示不同类型优化问题中加速系数与惯性权重的相互关系及其设计规律。该
随着我国高校管理体制改革的不断深化,高校拥有了更多的自主权,新时期高校的改革与发展对高校民主决策提出了新的要求。我国高校现:有的以单一决策主体为显著特征的高校决策模式
小学班主任不仅要承担教书育人的责任,还要承担起班级管理的责任,不断提升自身的班级管理水平。但目前 我国小学班主任班级管理工作还存在着如班级管理观念老旧、管理模式单
摘要:根据国家“十三五”规划的纲要,各级政府部门以及市场主体要紧跟国家的脚步,以国家战略目标为经济目标,积极推进经济、文化、政治、社会、生态以及党的建设。学校作为国家文化教育的基础部门,更要严格遵照党章规划,积极维护学校资产的真实与完整性。本文主要對目前高职院校存在的财务风险进行分析,并对学校建立财务风险内控体系提出相关意见。  关键词:高职院校;财务风险;内控体系  一、前言  学校作为国家教育
针对光源、手背厚度及水纹对手背静脉图像的噪声影响问题,提出一种新的手背静脉特征提取方法,包括最近邻图像插值缩放、Canny边缘检测以及一种改进的基于灰度直方图加权并顾及像素空间信息的FCM算法。实验结果证明,应用改进的FCM算法能减少图像分割迭代次数,较好地滤除噪声干扰。