论文部分内容阅读
摘 要:基于数据化时代的发展特点,很多科研工作与行业发展都需要通过数据分析来获得发展依据,数据分析工作也显得越来越重要了。为了完成分析数据的任务,现代人对于数据分析技术进行了开发,并获取了更多的分析方法,计算机在数据分析工作之中发挥了相当重要的作用,应用计算机可以以较高的效率处理种类丰富,数量庞大的数据。分析人员需要以分析条件以及数据实际情况为准,选出合适的分析方法,本文对几种常见的分析数据的方法展开比较性研究。
关键词:计算机;数据分析;常用方法;比较
数据分析已经逐渐成为了各个行业之中的基础性工作,在对数据进行分析之后可以清晰地找出数据之间存在的规律与联系,在验证了规律的正确性之后,还可以通过合理的方法来运用规律达到一定的目的,进行而成正确可靠的决策。虽然人们对数据分析工作不断改进,但是需要处理的数据量仍在不断增加,数据分析工作逐渐变得更具难度,选择合适的分析方法颇为关键,本文对常用的数据分析方法展开研究,并通过对比来给数据分析人员提供参考。
1 数据分析工作概述
在了解数据分析工作中常用的分析方法时,工作人员需要对数据分析这项工作任务的基本概念有所了解,在数据分析工作中,分析人员具有相对较强的目的性,其会对目标数据进行收集、整理以及加工,再选定分析方法对数据展开多角度的分析工作,借此来将数据之间存在的可靠联系与科学规律找出,辅助其他工作,在数据分析过程中,提炼出有价值的信息这个环节非常重要,在数据分析工作结束之后,工作人员还要对分析过程的各种工作情况进行整理,撰写出详细的数据分析报告 。
在开展数据分析工作时,分析人员一般会从数据挖掘方法与统计分析方法两种方法之中选出合适的分析方法,数据分析结果与选定的分析方法存在极大的联系,甚至会给分析结果的精准度带去影响,因此可知选对分析方法的意义。
2 数据挖掘方法分析
分类分析:决策树。决策树是一种树形结构,通过把实例从根节点排列到某个叶子节点来分类实例,叶子节点即为实例所属的分类。常用的决策树方法有C4.5、CART和Assistant。决策树能生成可理解的规则,计算量相对较小,能够清晰显示比较重要的字段,但当类别太多时,错误也可能增加较快,比较难预测连续性的字段,在一般算法分类时,只根据一个属性进行分类,这是其缺点。人工神经网络。人工神经网络是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型,它是数据挖掘中机器学习的典型代表。简言之,“神经网络”就是通过输入多个非线性模型及不同模型之间的加权互联,最终得到一个输出模型。贝叶斯分类方法。贝叶斯分类方法主要用于预测类成员间关系的可能性,它是统计学的一种分类方法。在许多场合,朴素贝叶斯分类算法可以与决策树和神经网络分类算法相媲美,该算法能运用到大型数据库中。
回归分析。数据挖掘中的回归分析主要是指多元线性回归和逻辑斯蒂回归,后者多在数据化运营中使用。多元线性回归主要描述一个因变量如何随着一批自变量的变化而变化,其回归方程是因变量与自变量关系的数据反映,最常用的是最小二乘法,即找出一组对应自变量的相应参数,使得因变量的实际观测值与回归方程的预测值之间的总方差减到最小。
聚类分析。聚类分析是指当要分析的数据缺乏描述信息,或是无法组成任何分类模式时就采用聚类的方法,将组之间的差异识别出来,并对个别组内的相似样本进行挑选,实现同组数据相近,不同组数据相异。
3 统计分析方法分析
描述性统计分析。描述性统计分析是通过图标或数学方法,对数据资料进行整理、分析并对数据的分布状态、数字特征和随机变量之间的关系进行估计和描述的方法。它分为集中趋势分析、离中趋势分析和相关分析三大部分。集中趋势分析主要靠平均数、中数、众数等统计指标来表示数据的集中趋势。离中趋势分析主要靠全距、四分差、方差、平均差、标准差等统计指标来研究数据的离中趋势。相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象进行其相关方向及相关程度的研究。这种关系既包括两个数据之间的单一相关关系,也包括多个数据之间的多重相关关系。
回归分析。回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。按照涉及的自变量的多少,分为回归和多重回归分析;按照因变量的多少,分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,分为线性回归分析和非线性回归分析。这里讲的回归分析是指一元线性回归,区别于数据挖掘方法中的多元线性回归。
关联分析。关联分析又称关联挖掘,通过分析由定性变量构成的交互汇总表从大量数据中发现项集之间有趣的关联和相关联系。其基本思想就是将一个联列表的行与列中各个元素的比例结构以点的形式在较低维的空间中表示出来。
因子分析。因子分析是指研究从变量群中提取共性因子的统计技术,即从大量的数据中寻找内在的联系,减轻决策困难的分析方法。因子分析有重心法、最大似然揭发,最小平方法,拉奥典型抽因法等,都以相关系数矩阵为基础。
方差分析。方差分析又称“变异数分析”或“F检验”,用于两个及两个以上样本均数差别的显著性检验。研究所得的数据一般呈现波动状。造成波动的原因可分成两类,一类是不可控的随机因素,另一类是研究中施加的对结果形成影响的可控因素。方差分析是从观测变量的方差入手,研究诸多控制变量中哪些变量是对观测变量有显著影响的变量。
4 两种分析方法对比分析
前文详细地介绍了数据挖掘方法与统计分析方法,对两种类型的分析工作的实现途径进行了详细地解析,以下是对这两种分析方法的对比情况。
从理论来源的角度来看,这两种分析方法理论基础都是统计基础理论,在统计方法中的随机事件与概率均来自于统计学,另外抽样分析也与该理论存在联系,而在数据挖掘系统之中应用的贝叶斯分类法也可以被看做是基础统计理论的延伸,因此可以明确两种分析方法虽然具有存在差异的分析途径,但是却具有同样的理论研究基础。
在分析实践工作之中,两种方法之间存在的差异就很明显了,应用统计分析方法时,工作人员需要先给出判断与假设,再应用其他的数据分析技术来对已有的判定以及假设进行验证,在分析中会形成很多函数关系式,而选用数据挖掘技术时,工作人员会直接通过算法找寻数据间的主要联系,并不需要应用大量的函数关系式,因此可知在处理数量较大的数据时可以有限选用数据挖掘技术。
5 结束语
本文重点介绍的两种分析方法是当前的数据统计工作中应用频次最高的分析方法。分析人员在不同的客观分析条件之下可以选择应用不同的方法,也可以按照分析工作的不同阶段来对不同的分析方法加以与应用,先借助统计分析工作对数据进行整体性地处理,再通过数据挖掘技术对数据进行深度分析,本文还简单地对两种数据分析方法进行了对比,数据分析人员在方法选择方面要保持一定的靈活性,规范地开展数据分析工作,切实将数据分析工作的作用在预测与方案制定等工作中发挥出来。
参考文献:
[1]赵禹.(2016). 计算机数据分析常用方法与比较. 数字技术与应用(3), 256-256.
[2]梁萌, & 管阳. (2017). 基于并行数据库的海量数据分析处理方法的研究. 电子设计工程, 25(10), 132-135.
[3]康晓鹰. (2017). 对计算机分析处理技术中的数据分析的探析. 中国培训(2), 71-71.
[4]宋智广. (2017). 基于计算机辅助设计的数据处理方法和装置.CN 103810351 B.
关键词:计算机;数据分析;常用方法;比较
数据分析已经逐渐成为了各个行业之中的基础性工作,在对数据进行分析之后可以清晰地找出数据之间存在的规律与联系,在验证了规律的正确性之后,还可以通过合理的方法来运用规律达到一定的目的,进行而成正确可靠的决策。虽然人们对数据分析工作不断改进,但是需要处理的数据量仍在不断增加,数据分析工作逐渐变得更具难度,选择合适的分析方法颇为关键,本文对常用的数据分析方法展开研究,并通过对比来给数据分析人员提供参考。
1 数据分析工作概述
在了解数据分析工作中常用的分析方法时,工作人员需要对数据分析这项工作任务的基本概念有所了解,在数据分析工作中,分析人员具有相对较强的目的性,其会对目标数据进行收集、整理以及加工,再选定分析方法对数据展开多角度的分析工作,借此来将数据之间存在的可靠联系与科学规律找出,辅助其他工作,在数据分析过程中,提炼出有价值的信息这个环节非常重要,在数据分析工作结束之后,工作人员还要对分析过程的各种工作情况进行整理,撰写出详细的数据分析报告 。
在开展数据分析工作时,分析人员一般会从数据挖掘方法与统计分析方法两种方法之中选出合适的分析方法,数据分析结果与选定的分析方法存在极大的联系,甚至会给分析结果的精准度带去影响,因此可知选对分析方法的意义。
2 数据挖掘方法分析
分类分析:决策树。决策树是一种树形结构,通过把实例从根节点排列到某个叶子节点来分类实例,叶子节点即为实例所属的分类。常用的决策树方法有C4.5、CART和Assistant。决策树能生成可理解的规则,计算量相对较小,能够清晰显示比较重要的字段,但当类别太多时,错误也可能增加较快,比较难预测连续性的字段,在一般算法分类时,只根据一个属性进行分类,这是其缺点。人工神经网络。人工神经网络是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型,它是数据挖掘中机器学习的典型代表。简言之,“神经网络”就是通过输入多个非线性模型及不同模型之间的加权互联,最终得到一个输出模型。贝叶斯分类方法。贝叶斯分类方法主要用于预测类成员间关系的可能性,它是统计学的一种分类方法。在许多场合,朴素贝叶斯分类算法可以与决策树和神经网络分类算法相媲美,该算法能运用到大型数据库中。
回归分析。数据挖掘中的回归分析主要是指多元线性回归和逻辑斯蒂回归,后者多在数据化运营中使用。多元线性回归主要描述一个因变量如何随着一批自变量的变化而变化,其回归方程是因变量与自变量关系的数据反映,最常用的是最小二乘法,即找出一组对应自变量的相应参数,使得因变量的实际观测值与回归方程的预测值之间的总方差减到最小。
聚类分析。聚类分析是指当要分析的数据缺乏描述信息,或是无法组成任何分类模式时就采用聚类的方法,将组之间的差异识别出来,并对个别组内的相似样本进行挑选,实现同组数据相近,不同组数据相异。
3 统计分析方法分析
描述性统计分析。描述性统计分析是通过图标或数学方法,对数据资料进行整理、分析并对数据的分布状态、数字特征和随机变量之间的关系进行估计和描述的方法。它分为集中趋势分析、离中趋势分析和相关分析三大部分。集中趋势分析主要靠平均数、中数、众数等统计指标来表示数据的集中趋势。离中趋势分析主要靠全距、四分差、方差、平均差、标准差等统计指标来研究数据的离中趋势。相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象进行其相关方向及相关程度的研究。这种关系既包括两个数据之间的单一相关关系,也包括多个数据之间的多重相关关系。
回归分析。回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。按照涉及的自变量的多少,分为回归和多重回归分析;按照因变量的多少,分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,分为线性回归分析和非线性回归分析。这里讲的回归分析是指一元线性回归,区别于数据挖掘方法中的多元线性回归。
关联分析。关联分析又称关联挖掘,通过分析由定性变量构成的交互汇总表从大量数据中发现项集之间有趣的关联和相关联系。其基本思想就是将一个联列表的行与列中各个元素的比例结构以点的形式在较低维的空间中表示出来。
因子分析。因子分析是指研究从变量群中提取共性因子的统计技术,即从大量的数据中寻找内在的联系,减轻决策困难的分析方法。因子分析有重心法、最大似然揭发,最小平方法,拉奥典型抽因法等,都以相关系数矩阵为基础。
方差分析。方差分析又称“变异数分析”或“F检验”,用于两个及两个以上样本均数差别的显著性检验。研究所得的数据一般呈现波动状。造成波动的原因可分成两类,一类是不可控的随机因素,另一类是研究中施加的对结果形成影响的可控因素。方差分析是从观测变量的方差入手,研究诸多控制变量中哪些变量是对观测变量有显著影响的变量。
4 两种分析方法对比分析
前文详细地介绍了数据挖掘方法与统计分析方法,对两种类型的分析工作的实现途径进行了详细地解析,以下是对这两种分析方法的对比情况。
从理论来源的角度来看,这两种分析方法理论基础都是统计基础理论,在统计方法中的随机事件与概率均来自于统计学,另外抽样分析也与该理论存在联系,而在数据挖掘系统之中应用的贝叶斯分类法也可以被看做是基础统计理论的延伸,因此可以明确两种分析方法虽然具有存在差异的分析途径,但是却具有同样的理论研究基础。
在分析实践工作之中,两种方法之间存在的差异就很明显了,应用统计分析方法时,工作人员需要先给出判断与假设,再应用其他的数据分析技术来对已有的判定以及假设进行验证,在分析中会形成很多函数关系式,而选用数据挖掘技术时,工作人员会直接通过算法找寻数据间的主要联系,并不需要应用大量的函数关系式,因此可知在处理数量较大的数据时可以有限选用数据挖掘技术。
5 结束语
本文重点介绍的两种分析方法是当前的数据统计工作中应用频次最高的分析方法。分析人员在不同的客观分析条件之下可以选择应用不同的方法,也可以按照分析工作的不同阶段来对不同的分析方法加以与应用,先借助统计分析工作对数据进行整体性地处理,再通过数据挖掘技术对数据进行深度分析,本文还简单地对两种数据分析方法进行了对比,数据分析人员在方法选择方面要保持一定的靈活性,规范地开展数据分析工作,切实将数据分析工作的作用在预测与方案制定等工作中发挥出来。
参考文献:
[1]赵禹.(2016). 计算机数据分析常用方法与比较. 数字技术与应用(3), 256-256.
[2]梁萌, & 管阳. (2017). 基于并行数据库的海量数据分析处理方法的研究. 电子设计工程, 25(10), 132-135.
[3]康晓鹰. (2017). 对计算机分析处理技术中的数据分析的探析. 中国培训(2), 71-71.
[4]宋智广. (2017). 基于计算机辅助设计的数据处理方法和装置.CN 103810351 B.