论文部分内容阅读
摘要:数据挖掘是在海量的数据中归纳、总结、分析数据的内在规律,概率论与数理统计在数据挖掘中的应用,提高了数据挖掘的精度与效率,通过对概率论、数理统计与数据挖掘的关系,分析了统计学在数据挖掘中的具体应用,并结合具体的算法探究了统计学在数据挖掘中的具体运用。
关键词:数据挖掘;概率论;数理统计;统计学
0引言
概率论与数理统计是数据统计中采用的技术,但其在数据挖掘中也具有十分重要的作用。数据挖掘作为一门新兴科学,它是从大量、不完全、离散等特征的数据中,对其进行整理,提取隐含在这些数据中有意义、新颖、具有统一特征、有用的数据,为人们的决策提供数据支持服务,是分析解决各类实际问题的可靠手段。数据挖掘主要是采用计算机技术、高级算法来实现对复杂数据、非线性结构的数据进行处理,来探究数据之间的内在联系,进而发现数据内部存在的规律,为用户提供信息决策服务。
1统计学与数据挖掘的关系
统计学主要是研究数据统计原理与方法的科学,包括数理统计与概率论等主要内容,主要是研究数据的搜集、整理与分析,并结合数据整理的资源,对事物进行整体的推断,主要利用数据统计与概率论的原理对数据中的各个属性进行统计与分析,进而找出数据自己的规律,在统计学的分析方法中主要有方差分析、相关分析、主成分分析与回归分析等方法。数据挖掘主要是对大量的数据进行分析、总结、深度挖掘,进而找出数据之间的规律,并将这些新规律运用到现实中,例如对学生的学习成绩进行挖掘分析,进而找出学生在学习过程中存在的问题,进而能够形成学生的学习轨迹。1)统计学与数据挖掘的手段与目标相同,都是在庞杂的数据中提取数据的结构特征,分析数据之间存在的内在联系与特征。2)数据挖掘是统计学发展的一个重要方向,它也为统计学的发展提供了一个全新的研究方法与数据处理的方法,而且数据挖掘比统计学传统的数据分析方法更具有代表性。3)数据挖掘并不仅是统计学分析的重要内容,而在统计学的思想与数据处理的方法中也得到了广泛的应用,例如运用到数据库技术、智能处理技术、机器学习等技术。4)统计学与概率论作为数据挖掘的一种成熟的、应用广泛的技术,将会促进数据挖掘向更深层次的范围发展,提高数据挖掘的效率。
2统计学在数据挖掘中的应用
2.1概率分析网(PLN)
人工神经网络(ArtificialNeuralNetwork,ANN)是数据挖掘算法中常用的方法之一,它是由一系列称为数据节点组成的网状结构,形成一个复杂的数据组成形式,通过调整各个网络节点,采用输入、输出的权-值的非线性数据处理方式,达到对数据进行分析的目的。在数据挖掘时,往往会出现一些定量数据与定性数据、质的数据与量的数据等混合在一起,以及一些数据缺失的情况,这就需要采用统计学中的相关数据处理技术与数据挖掘技术结合在一起,共同探究大量数据中存在的规律。概率分析网(PLN)在数据挖掘中的应用,主要体现在解决数据的模式识别、非线性回归的数据优化处理等数据运用与处理等方面,可以对一些复杂的数据进行处理,对分析定性数据与定量数据具有十分重要的作用。PLN網络主要基于概率逻辑的神经网络基础上,并采用复杂数据计算的方式,同时它也是在传统权-阈值神经网络(BP学习算法)的基础上而提出的算法,在数据处理的过程中,它的学习速度比相同问题的BP算法的学习速度快百倍,而且准确率也比较高,充分说明概率分析网络(PLN)在一些性能上总是比权-阈值网络的计算性能要快。在具体应用中,由于神经网络节点构造的特殊性,也具有很强的随机性,在具体的运用中具有多种可变性,需要采用多种数据分析工具进行处理,例如马尔科夫链(Markov)等工具对PLN网络中的数据进行定量分析,对大量的非线性数据进行统一分析与综合,然后通过研究神经网络各个状态之间的数据转移概率与数据收敛的情况来分析数据之间的内在联系,进而确定数据变化的规律,还可以在不确定数据网络转移矩阵变化的状态下,采用统计模拟工具对数据进行分析,求出数据的平均收敛补长的变异结果,进而分析出数据的变化规律。
2.2贝叶斯网络在数据挖掘中的运用
一个完整的数据挖掘过程,需要对数据进行清理、转换、可视化处理等一系列的过程,然后通过检验分析数据挖掘的结果是否正确,在这个过程中,就需要用到决策树、人工神经网络、贝叶斯算法等算法,来分析这些数据之间存在的内在联系与逻辑关系,然后通过数据挖掘技术,将其结果可视化的展示出来。在早期,贝叶斯网络就成功地应用于专家系统与机器学习中,解决不同结构中数据之间的连接问题,成为表示不确定性专家知识与数据推理的一种数据变化方法,特别是随着贝叶斯网络在机器学习中的运用与研究,而概率论、数理统计与数据挖掘之间紧密的联系,是贝叶斯网络成为人们研究机器学习的重要数据处理方法,而且贝叶斯网络是一个带有概率注释的有向无环图,能够快速地对大数据进行分析,总结出大量数据之间的逻辑关系,采用贝叶斯网络的数据无序图,可以将数据的概率图模型与变量之间的关系结合在一起,便于运用联合概率分布(物理的或贝叶斯的)的方式处理这些复杂数据之间的逻辑关系,并采用多种逻辑算法,进而能够应用贝叶斯定理的学习与统计判断功能,达到对无序数据的预测、分析与聚类处理等数据挖掘任务。当样本数据不安全或者不确定时,或者数据中存在着质的数据与量的数据等不确定性数据,除了少数特例外,在采用贝叶斯法处理数据时,一般要借助于近似方法,探究不同数据内在的联系,来完成数据处理的过程。
2.3概率进化算法(PMEA)在数据挖掘中的应用
遗传算法(GeneticAnalysis,GA)是数据挖掘算法中常用的一种方法,也是在一些数据处理中经常用到的一种算法,它对数据的处理主要是基于人工选择和交叉、变异、重组等数据处理优化的方法,来完成数据挖掘的过程,GA通过对大量的非线性的数据构造块中的数据进行清洗、处理,然后进行选择和重组操作,形成新的数据块结构,然后通过遗传、再生和混合来形成更好的数据块,直到完成数据结构的优化,进而得出数据的最优解,但是在实际操作的过程中,由于数据的重组常常导致数据块被破坏,采用传统的算法就不能有效地对数据进行处理,导致遗传算法达到了局部优化或者早熟,不能有效地完成数据处理,这种数据块的破坏称为连锁(Linkage)问题。为了解决这个问题,就需要从优选的数据集合中提取有效的信息来代替数据重组,并提出数据的概率分布来确定新的解法,进而实现了算法的连锁学习,如果将这种解决方法运用到数据挖掘中,就能够解决一系列复杂的问题,这就是概率进化算法(PMEA)的形成思想与理论依据,还可以采用压缩遗传算法运用到概率进化算法中,扩展数据的解析模型,以降低算法的复杂性,提高数据处理的效率。但是,如何有效地将数据处理中存在问题的预先知识引入到PMEA算法中,解决数据连锁学习过程中存在的问题,使得数据挖掘的结果更加快速与精确,是概率进化算法的关键问题。同时,在概率进化算法中如何有效地选择数据群体的参数,如群体的规模、数据的选择机制与比例等,都是概率进化算法需要处理的热点问题之一。 3数据挖掘为数理统计与概率论提供了新的研究方向
数理统计与概率论的发展往往都是来自于实际数据处理的需要,也是结合人们的需求,来探究大量数据之间的规律。随着当前社会海量数据的发展,数据挖掘成为处理当前海量数据的重要手段,也是复杂数据有效处理的方式之一,当待处理的数据单位已经以GB或TB为单位进行计算时,而且数据也会变得更加复杂,如果采用现有的数据集统计分析的方法来处理数据,处理的效率就会比较低下,不仅现有的数据统计方法不能满足数据处理的要求,不能提高数据处理的效率,在统计理论的研究方面,也不能满足要求。主要原因数据处理过程中的基础“总体”和“样本”的选择在发生变化,是否能满足数据处理的要求為前提,重要原因是在海量的数据面前很难对数据的样本与总体进行准确的定义,而且数据的变化也是多样性的,大样本的数据渐近性质是否与提前的预测相同,如果数据量选择太大,传统的统计方法就很难真实地反映出数据的特征,而且统计假设检验使用的小概率原理不能适合大数据样本的应用。由于假定的小概率事件在具体的数据测试中是够能够满足要求,主要原因是处理数据的样本较小,但是如果数据量增加到一定的范围后,数据在处理中出现的多变性就比较多。因此,采用数据挖掘技术就能够很好地解决这一问题。在统计学中加入数据挖掘的研究,将会有效促进统计学的发展,对数据挖掘与统计方法的结合进行研究,可以有效提高数据挖掘的准确型,使统计方法适应数据量的变化,也能够提高数据处理的效果。
4结语
在信息化、数字化、网络化、智能化高速发展的今天,传统数理统计分析单独应用的范围会变得狭窄,大数据、人工智能等技术需要的是对海量大数据的综合处理和挖掘能力。数理统计与概率论在数据挖掘中的应用,对数据挖掘的发展具有十分重要的作用,它对处理数据、分析数据的效果也十分明显。将数据统计与概率论的思想融入到数据挖掘中,有利于指导实际数据挖掘工作,提升数据挖掘的精确度,也能够提高数据挖掘质量,为未来的数据挖掘提供了新的思路。
参考文献:
[1]林琳.浅议在数据挖掘中应用抽样技术[1].江苏统计,2014(6).
[2]牛力.数据挖掘中的统计分析技术应用研究[J].广西师范大学学报,2015(12).
[3]何清华,肖人彬,师汉民.蚂蚁算法在机构同构判定中的实现[J].模式识别与人工智能,2016(4).
[4]魏瑜,陆静.数据挖掘与统计学的关系浅析[1].沿海企业与科技,2015(9).
作者:庞建平 单位:中国人民大学
关键词:数据挖掘;概率论;数理统计;统计学
0引言
概率论与数理统计是数据统计中采用的技术,但其在数据挖掘中也具有十分重要的作用。数据挖掘作为一门新兴科学,它是从大量、不完全、离散等特征的数据中,对其进行整理,提取隐含在这些数据中有意义、新颖、具有统一特征、有用的数据,为人们的决策提供数据支持服务,是分析解决各类实际问题的可靠手段。数据挖掘主要是采用计算机技术、高级算法来实现对复杂数据、非线性结构的数据进行处理,来探究数据之间的内在联系,进而发现数据内部存在的规律,为用户提供信息决策服务。
1统计学与数据挖掘的关系
统计学主要是研究数据统计原理与方法的科学,包括数理统计与概率论等主要内容,主要是研究数据的搜集、整理与分析,并结合数据整理的资源,对事物进行整体的推断,主要利用数据统计与概率论的原理对数据中的各个属性进行统计与分析,进而找出数据自己的规律,在统计学的分析方法中主要有方差分析、相关分析、主成分分析与回归分析等方法。数据挖掘主要是对大量的数据进行分析、总结、深度挖掘,进而找出数据之间的规律,并将这些新规律运用到现实中,例如对学生的学习成绩进行挖掘分析,进而找出学生在学习过程中存在的问题,进而能够形成学生的学习轨迹。1)统计学与数据挖掘的手段与目标相同,都是在庞杂的数据中提取数据的结构特征,分析数据之间存在的内在联系与特征。2)数据挖掘是统计学发展的一个重要方向,它也为统计学的发展提供了一个全新的研究方法与数据处理的方法,而且数据挖掘比统计学传统的数据分析方法更具有代表性。3)数据挖掘并不仅是统计学分析的重要内容,而在统计学的思想与数据处理的方法中也得到了广泛的应用,例如运用到数据库技术、智能处理技术、机器学习等技术。4)统计学与概率论作为数据挖掘的一种成熟的、应用广泛的技术,将会促进数据挖掘向更深层次的范围发展,提高数据挖掘的效率。
2统计学在数据挖掘中的应用
2.1概率分析网(PLN)
人工神经网络(ArtificialNeuralNetwork,ANN)是数据挖掘算法中常用的方法之一,它是由一系列称为数据节点组成的网状结构,形成一个复杂的数据组成形式,通过调整各个网络节点,采用输入、输出的权-值的非线性数据处理方式,达到对数据进行分析的目的。在数据挖掘时,往往会出现一些定量数据与定性数据、质的数据与量的数据等混合在一起,以及一些数据缺失的情况,这就需要采用统计学中的相关数据处理技术与数据挖掘技术结合在一起,共同探究大量数据中存在的规律。概率分析网(PLN)在数据挖掘中的应用,主要体现在解决数据的模式识别、非线性回归的数据优化处理等数据运用与处理等方面,可以对一些复杂的数据进行处理,对分析定性数据与定量数据具有十分重要的作用。PLN網络主要基于概率逻辑的神经网络基础上,并采用复杂数据计算的方式,同时它也是在传统权-阈值神经网络(BP学习算法)的基础上而提出的算法,在数据处理的过程中,它的学习速度比相同问题的BP算法的学习速度快百倍,而且准确率也比较高,充分说明概率分析网络(PLN)在一些性能上总是比权-阈值网络的计算性能要快。在具体应用中,由于神经网络节点构造的特殊性,也具有很强的随机性,在具体的运用中具有多种可变性,需要采用多种数据分析工具进行处理,例如马尔科夫链(Markov)等工具对PLN网络中的数据进行定量分析,对大量的非线性数据进行统一分析与综合,然后通过研究神经网络各个状态之间的数据转移概率与数据收敛的情况来分析数据之间的内在联系,进而确定数据变化的规律,还可以在不确定数据网络转移矩阵变化的状态下,采用统计模拟工具对数据进行分析,求出数据的平均收敛补长的变异结果,进而分析出数据的变化规律。
2.2贝叶斯网络在数据挖掘中的运用
一个完整的数据挖掘过程,需要对数据进行清理、转换、可视化处理等一系列的过程,然后通过检验分析数据挖掘的结果是否正确,在这个过程中,就需要用到决策树、人工神经网络、贝叶斯算法等算法,来分析这些数据之间存在的内在联系与逻辑关系,然后通过数据挖掘技术,将其结果可视化的展示出来。在早期,贝叶斯网络就成功地应用于专家系统与机器学习中,解决不同结构中数据之间的连接问题,成为表示不确定性专家知识与数据推理的一种数据变化方法,特别是随着贝叶斯网络在机器学习中的运用与研究,而概率论、数理统计与数据挖掘之间紧密的联系,是贝叶斯网络成为人们研究机器学习的重要数据处理方法,而且贝叶斯网络是一个带有概率注释的有向无环图,能够快速地对大数据进行分析,总结出大量数据之间的逻辑关系,采用贝叶斯网络的数据无序图,可以将数据的概率图模型与变量之间的关系结合在一起,便于运用联合概率分布(物理的或贝叶斯的)的方式处理这些复杂数据之间的逻辑关系,并采用多种逻辑算法,进而能够应用贝叶斯定理的学习与统计判断功能,达到对无序数据的预测、分析与聚类处理等数据挖掘任务。当样本数据不安全或者不确定时,或者数据中存在着质的数据与量的数据等不确定性数据,除了少数特例外,在采用贝叶斯法处理数据时,一般要借助于近似方法,探究不同数据内在的联系,来完成数据处理的过程。
2.3概率进化算法(PMEA)在数据挖掘中的应用
遗传算法(GeneticAnalysis,GA)是数据挖掘算法中常用的一种方法,也是在一些数据处理中经常用到的一种算法,它对数据的处理主要是基于人工选择和交叉、变异、重组等数据处理优化的方法,来完成数据挖掘的过程,GA通过对大量的非线性的数据构造块中的数据进行清洗、处理,然后进行选择和重组操作,形成新的数据块结构,然后通过遗传、再生和混合来形成更好的数据块,直到完成数据结构的优化,进而得出数据的最优解,但是在实际操作的过程中,由于数据的重组常常导致数据块被破坏,采用传统的算法就不能有效地对数据进行处理,导致遗传算法达到了局部优化或者早熟,不能有效地完成数据处理,这种数据块的破坏称为连锁(Linkage)问题。为了解决这个问题,就需要从优选的数据集合中提取有效的信息来代替数据重组,并提出数据的概率分布来确定新的解法,进而实现了算法的连锁学习,如果将这种解决方法运用到数据挖掘中,就能够解决一系列复杂的问题,这就是概率进化算法(PMEA)的形成思想与理论依据,还可以采用压缩遗传算法运用到概率进化算法中,扩展数据的解析模型,以降低算法的复杂性,提高数据处理的效率。但是,如何有效地将数据处理中存在问题的预先知识引入到PMEA算法中,解决数据连锁学习过程中存在的问题,使得数据挖掘的结果更加快速与精确,是概率进化算法的关键问题。同时,在概率进化算法中如何有效地选择数据群体的参数,如群体的规模、数据的选择机制与比例等,都是概率进化算法需要处理的热点问题之一。 3数据挖掘为数理统计与概率论提供了新的研究方向
数理统计与概率论的发展往往都是来自于实际数据处理的需要,也是结合人们的需求,来探究大量数据之间的规律。随着当前社会海量数据的发展,数据挖掘成为处理当前海量数据的重要手段,也是复杂数据有效处理的方式之一,当待处理的数据单位已经以GB或TB为单位进行计算时,而且数据也会变得更加复杂,如果采用现有的数据集统计分析的方法来处理数据,处理的效率就会比较低下,不仅现有的数据统计方法不能满足数据处理的要求,不能提高数据处理的效率,在统计理论的研究方面,也不能满足要求。主要原因数据处理过程中的基础“总体”和“样本”的选择在发生变化,是否能满足数据处理的要求為前提,重要原因是在海量的数据面前很难对数据的样本与总体进行准确的定义,而且数据的变化也是多样性的,大样本的数据渐近性质是否与提前的预测相同,如果数据量选择太大,传统的统计方法就很难真实地反映出数据的特征,而且统计假设检验使用的小概率原理不能适合大数据样本的应用。由于假定的小概率事件在具体的数据测试中是够能够满足要求,主要原因是处理数据的样本较小,但是如果数据量增加到一定的范围后,数据在处理中出现的多变性就比较多。因此,采用数据挖掘技术就能够很好地解决这一问题。在统计学中加入数据挖掘的研究,将会有效促进统计学的发展,对数据挖掘与统计方法的结合进行研究,可以有效提高数据挖掘的准确型,使统计方法适应数据量的变化,也能够提高数据处理的效果。
4结语
在信息化、数字化、网络化、智能化高速发展的今天,传统数理统计分析单独应用的范围会变得狭窄,大数据、人工智能等技术需要的是对海量大数据的综合处理和挖掘能力。数理统计与概率论在数据挖掘中的应用,对数据挖掘的发展具有十分重要的作用,它对处理数据、分析数据的效果也十分明显。将数据统计与概率论的思想融入到数据挖掘中,有利于指导实际数据挖掘工作,提升数据挖掘的精确度,也能够提高数据挖掘质量,为未来的数据挖掘提供了新的思路。
参考文献:
[1]林琳.浅议在数据挖掘中应用抽样技术[1].江苏统计,2014(6).
[2]牛力.数据挖掘中的统计分析技术应用研究[J].广西师范大学学报,2015(12).
[3]何清华,肖人彬,师汉民.蚂蚁算法在机构同构判定中的实现[J].模式识别与人工智能,2016(4).
[4]魏瑜,陆静.数据挖掘与统计学的关系浅析[1].沿海企业与科技,2015(9).
作者:庞建平 单位:中国人民大学