数据挖掘中概率论与数理统计的应用

来源 :科技尚品 | 被引量 : 0次 | 上传用户:amwygah021121
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:数据挖掘是在海量的数据中归纳、总结、分析数据的内在规律,概率论与数理统计在数据挖掘中的应用,提高了数据挖掘的精度与效率,通过对概率论、数理统计与数据挖掘的关系,分析了统计学在数据挖掘中的具体应用,并结合具体的算法探究了统计学在数据挖掘中的具体运用。
  关键词:数据挖掘;概率论;数理统计;统计学
  0引言
  概率论与数理统计是数据统计中采用的技术,但其在数据挖掘中也具有十分重要的作用。数据挖掘作为一门新兴科学,它是从大量、不完全、离散等特征的数据中,对其进行整理,提取隐含在这些数据中有意义、新颖、具有统一特征、有用的数据,为人们的决策提供数据支持服务,是分析解决各类实际问题的可靠手段。数据挖掘主要是采用计算机技术、高级算法来实现对复杂数据、非线性结构的数据进行处理,来探究数据之间的内在联系,进而发现数据内部存在的规律,为用户提供信息决策服务。
  1统计学与数据挖掘的关系
  统计学主要是研究数据统计原理与方法的科学,包括数理统计与概率论等主要内容,主要是研究数据的搜集、整理与分析,并结合数据整理的资源,对事物进行整体的推断,主要利用数据统计与概率论的原理对数据中的各个属性进行统计与分析,进而找出数据自己的规律,在统计学的分析方法中主要有方差分析、相关分析、主成分分析与回归分析等方法。数据挖掘主要是对大量的数据进行分析、总结、深度挖掘,进而找出数据之间的规律,并将这些新规律运用到现实中,例如对学生的学习成绩进行挖掘分析,进而找出学生在学习过程中存在的问题,进而能够形成学生的学习轨迹。1)统计学与数据挖掘的手段与目标相同,都是在庞杂的数据中提取数据的结构特征,分析数据之间存在的内在联系与特征。2)数据挖掘是统计学发展的一个重要方向,它也为统计学的发展提供了一个全新的研究方法与数据处理的方法,而且数据挖掘比统计学传统的数据分析方法更具有代表性。3)数据挖掘并不仅是统计学分析的重要内容,而在统计学的思想与数据处理的方法中也得到了广泛的应用,例如运用到数据库技术、智能处理技术、机器学习等技术。4)统计学与概率论作为数据挖掘的一种成熟的、应用广泛的技术,将会促进数据挖掘向更深层次的范围发展,提高数据挖掘的效率。
  2统计学在数据挖掘中的应用
  2.1概率分析网(PLN)
  人工神经网络(ArtificialNeuralNetwork,ANN)是数据挖掘算法中常用的方法之一,它是由一系列称为数据节点组成的网状结构,形成一个复杂的数据组成形式,通过调整各个网络节点,采用输入、输出的权-值的非线性数据处理方式,达到对数据进行分析的目的。在数据挖掘时,往往会出现一些定量数据与定性数据、质的数据与量的数据等混合在一起,以及一些数据缺失的情况,这就需要采用统计学中的相关数据处理技术与数据挖掘技术结合在一起,共同探究大量数据中存在的规律。概率分析网(PLN)在数据挖掘中的应用,主要体现在解决数据的模式识别、非线性回归的数据优化处理等数据运用与处理等方面,可以对一些复杂的数据进行处理,对分析定性数据与定量数据具有十分重要的作用。PLN網络主要基于概率逻辑的神经网络基础上,并采用复杂数据计算的方式,同时它也是在传统权-阈值神经网络(BP学习算法)的基础上而提出的算法,在数据处理的过程中,它的学习速度比相同问题的BP算法的学习速度快百倍,而且准确率也比较高,充分说明概率分析网络(PLN)在一些性能上总是比权-阈值网络的计算性能要快。在具体应用中,由于神经网络节点构造的特殊性,也具有很强的随机性,在具体的运用中具有多种可变性,需要采用多种数据分析工具进行处理,例如马尔科夫链(Markov)等工具对PLN网络中的数据进行定量分析,对大量的非线性数据进行统一分析与综合,然后通过研究神经网络各个状态之间的数据转移概率与数据收敛的情况来分析数据之间的内在联系,进而确定数据变化的规律,还可以在不确定数据网络转移矩阵变化的状态下,采用统计模拟工具对数据进行分析,求出数据的平均收敛补长的变异结果,进而分析出数据的变化规律。
  2.2贝叶斯网络在数据挖掘中的运用
  一个完整的数据挖掘过程,需要对数据进行清理、转换、可视化处理等一系列的过程,然后通过检验分析数据挖掘的结果是否正确,在这个过程中,就需要用到决策树、人工神经网络、贝叶斯算法等算法,来分析这些数据之间存在的内在联系与逻辑关系,然后通过数据挖掘技术,将其结果可视化的展示出来。在早期,贝叶斯网络就成功地应用于专家系统与机器学习中,解决不同结构中数据之间的连接问题,成为表示不确定性专家知识与数据推理的一种数据变化方法,特别是随着贝叶斯网络在机器学习中的运用与研究,而概率论、数理统计与数据挖掘之间紧密的联系,是贝叶斯网络成为人们研究机器学习的重要数据处理方法,而且贝叶斯网络是一个带有概率注释的有向无环图,能够快速地对大数据进行分析,总结出大量数据之间的逻辑关系,采用贝叶斯网络的数据无序图,可以将数据的概率图模型与变量之间的关系结合在一起,便于运用联合概率分布(物理的或贝叶斯的)的方式处理这些复杂数据之间的逻辑关系,并采用多种逻辑算法,进而能够应用贝叶斯定理的学习与统计判断功能,达到对无序数据的预测、分析与聚类处理等数据挖掘任务。当样本数据不安全或者不确定时,或者数据中存在着质的数据与量的数据等不确定性数据,除了少数特例外,在采用贝叶斯法处理数据时,一般要借助于近似方法,探究不同数据内在的联系,来完成数据处理的过程。
  2.3概率进化算法(PMEA)在数据挖掘中的应用
  遗传算法(GeneticAnalysis,GA)是数据挖掘算法中常用的一种方法,也是在一些数据处理中经常用到的一种算法,它对数据的处理主要是基于人工选择和交叉、变异、重组等数据处理优化的方法,来完成数据挖掘的过程,GA通过对大量的非线性的数据构造块中的数据进行清洗、处理,然后进行选择和重组操作,形成新的数据块结构,然后通过遗传、再生和混合来形成更好的数据块,直到完成数据结构的优化,进而得出数据的最优解,但是在实际操作的过程中,由于数据的重组常常导致数据块被破坏,采用传统的算法就不能有效地对数据进行处理,导致遗传算法达到了局部优化或者早熟,不能有效地完成数据处理,这种数据块的破坏称为连锁(Linkage)问题。为了解决这个问题,就需要从优选的数据集合中提取有效的信息来代替数据重组,并提出数据的概率分布来确定新的解法,进而实现了算法的连锁学习,如果将这种解决方法运用到数据挖掘中,就能够解决一系列复杂的问题,这就是概率进化算法(PMEA)的形成思想与理论依据,还可以采用压缩遗传算法运用到概率进化算法中,扩展数据的解析模型,以降低算法的复杂性,提高数据处理的效率。但是,如何有效地将数据处理中存在问题的预先知识引入到PMEA算法中,解决数据连锁学习过程中存在的问题,使得数据挖掘的结果更加快速与精确,是概率进化算法的关键问题。同时,在概率进化算法中如何有效地选择数据群体的参数,如群体的规模、数据的选择机制与比例等,都是概率进化算法需要处理的热点问题之一。   3数据挖掘为数理统计与概率论提供了新的研究方向
  数理统计与概率论的发展往往都是来自于实际数据处理的需要,也是结合人们的需求,来探究大量数据之间的规律。随着当前社会海量数据的发展,数据挖掘成为处理当前海量数据的重要手段,也是复杂数据有效处理的方式之一,当待处理的数据单位已经以GB或TB为单位进行计算时,而且数据也会变得更加复杂,如果采用现有的数据集统计分析的方法来处理数据,处理的效率就会比较低下,不仅现有的数据统计方法不能满足数据处理的要求,不能提高数据处理的效率,在统计理论的研究方面,也不能满足要求。主要原因数据处理过程中的基础“总体”和“样本”的选择在发生变化,是否能满足数据处理的要求為前提,重要原因是在海量的数据面前很难对数据的样本与总体进行准确的定义,而且数据的变化也是多样性的,大样本的数据渐近性质是否与提前的预测相同,如果数据量选择太大,传统的统计方法就很难真实地反映出数据的特征,而且统计假设检验使用的小概率原理不能适合大数据样本的应用。由于假定的小概率事件在具体的数据测试中是够能够满足要求,主要原因是处理数据的样本较小,但是如果数据量增加到一定的范围后,数据在处理中出现的多变性就比较多。因此,采用数据挖掘技术就能够很好地解决这一问题。在统计学中加入数据挖掘的研究,将会有效促进统计学的发展,对数据挖掘与统计方法的结合进行研究,可以有效提高数据挖掘的准确型,使统计方法适应数据量的变化,也能够提高数据处理的效果。
  4结语
  在信息化、数字化、网络化、智能化高速发展的今天,传统数理统计分析单独应用的范围会变得狭窄,大数据、人工智能等技术需要的是对海量大数据的综合处理和挖掘能力。数理统计与概率论在数据挖掘中的应用,对数据挖掘的发展具有十分重要的作用,它对处理数据、分析数据的效果也十分明显。将数据统计与概率论的思想融入到数据挖掘中,有利于指导实际数据挖掘工作,提升数据挖掘的精确度,也能够提高数据挖掘质量,为未来的数据挖掘提供了新的思路。
  参考文献:
  [1]林琳.浅议在数据挖掘中应用抽样技术[1].江苏统计,2014(6).
  [2]牛力.数据挖掘中的统计分析技术应用研究[J].广西师范大学学报,2015(12).
  [3]何清华,肖人彬,师汉民.蚂蚁算法在机构同构判定中的实现[J].模式识别与人工智能,2016(4).
  [4]魏瑜,陆静.数据挖掘与统计学的关系浅析[1].沿海企业与科技,2015(9).
  作者:庞建平 单位:中国人民大学
其他文献
摘 要:本文分析了国企食堂食品卫生安全管理优化思路。首先,阐述了国企食堂食品卫生安全管理的重要性。其次,分析了国企食堂食品卫生安全存在的问题。最后,提出了加强国企食堂食品卫生安全管理的措施。例如,及时发现食堂食品中存在的不合格食物、端正食堂工作人员工作态度、提升员工安全意识等。  关键词:国企;食堂;食品;卫生安全管理  中图分类号:F276.1 文献标识码:A  国企后勤工作是国企
期刊
摘 要:随着消防改制,消防救援队伍的工作职能由“单一灾种”向“全灾种、大应急”转变,对作战指挥调度的要求进一步提高。本文以全灾种指挥调度模式为对象,以“全领域、全过程、全灾种”综合救援为立足点,通过对当前消防指挥调度模式进行合理的分析,总结全灾种指挥调度模式的类型,以及影响全灾种指挥调度模式的主要因素。运用综合评价法对全灾种指挥调度模式进行分析和研究,并提出对应的建议,旨在达到上下级之间的连贯协同
期刊
摘 要:面对现存的在没有水分测定仪的情况下进行纺织物干燥性能测试的问题,烘箱干燥法诞生了,它凭借着自身不同于水分测定仪法的特点逐渐发展与壮大,文章将首先介绍烘箱干燥的干燥原理与纺织品干燥性能的具体分类,再针对纺织品干燥性能与烘箱干燥法的应用进行分析与探讨。  关键词:烘箱干燥;纺织品性能测试;干燥性能  中图分类号:TS107 文献标识码:A  1 烘箱工作原理及纺织品性能检测标准 
期刊
摘 要:根据天然气设施的一些特有特征、雷电的各种破坏方式以及雷击可能产生的灾害和影响,本文主要简述了天然气工程项目系统的直击雷防护措施,通过这些技术手段,能大大减少天然气工程项目发生雷击灾害的概率,确保天然气工程的各种设备运行正常。由于盱眙天然气公司工程项目属于易燃易爆场所,若有雷击发生,人员伤亡和财产损失可能可能性较大,因此防雷安全尤为重要。  关键词:天然气,直击雷,防护设计  中图分类号:T
期刊
摘 要:为了保证高压断路器能正常运行,降低高压断路器故障带来的停电损失,文章对高压断路器状态在线检测技术进行了研究。首先,分析了高压断路器检测的内容包括行程特性监测、分合闸线圈電流监测、振动信号监测。然后,结合实际简单阐述了高压断路器状态在线检测技术的发展。最后,分析了红外线检测技术、霍尔电流传感器检测技术、温度传感器检测技术、压电式加速度传感器、高速CCD成像技术的原理、优点及缺点。  关键词:
期刊
摘 要:相较于传统电视媒体而言,新媒体具有较强的互动性和实时性。其优化了受众的阅读体验,革新了受众的信息接收方式,目前发展十分迅速。新媒体的出现,严重冲击到企业电视新闻的发展。因此,企业电视新闻要及时进行必要的变革,以便有效应对新媒体带来的冲击和挑战。  关键词:新媒体时代;企业电视新闻;发展策略  中图分类号:G222 文献标识号:A  在过去很长一段时期内,人们主要通过电视新闻来
期刊
摘 要:随着国家文化软实力不断提高,国民综合素质变得越来越强,人民群众对于增强自身的文化知识储备以及丰富精神内涵的需求越来越迫切。浏览阅读公共图书馆内多种多样的图书是人民群众获取文化知识的重要途径之一,文章主要针对公共图书馆的功能设置和相关的服务质量研究展开分析,以此挖掘公共图书馆的真正价值。  关键词:公共图书馆;功能设置;服务质量;国民综合素质;研究分析  中图分类号:G25 文
期刊
摘 要:本文分析了智慧工厂的建设现状、场景特征,职业技术人才培养模式的转型方向,提出打破传统批量化、标准化、固定化的培养理念,培养具备系统化思维、数字化技术与宽广的专业技术技能、创新意识和创新创意能力,具备应对智能制造设备进行技术维护、咨询、现场管理的知识和能力,同时具有国际视野和人文素养、更多领导能力的创新型跨界复合技能人才,对人才培养带来了巨大的挑战。  关键词:智能制造;智慧工厂;复合技能人
期刊
摘 要:自从我国加入世贸组织之后,经济逐步呈现出全球化的趋势,在这种趋势下,市场经济体制趋于完善,贸易活动也在逐步增加,与此同时,市场竞争也越来越激烈。在这样的市场环境下,企业想要占据一席之地,就必须牢牢抓紧内部的管理,优化并创新相关机制,提升企业的核心竞争力。本文就企业管理创新的概念以及重要性进行阐述,并分析企业管理创新的要点,提出创新企业管理的途径。  关键词:企业管理;创新;概念;重要性;要
期刊
摘 要:本文主要分析园林工程预结算管理举措思路,阐述园林工程预结算基本内容,以及园林工程预结算管理具有的为其他工作展开打下良好基础、为施工部门节省更多成本等重要作用。针对园林工程预结算管理,总结出加强投标阶段预结算管理、施工阶段预结算管理、竣工阶段预结算管理等措施。  关键词:园林;工程;预结算管理  中图分类号:S731 文献标识码:A  1 园林工程预结算基本概述  在园林工程中
期刊