大数据挖掘中的数据分类算法技术

来源 :中国新通信·理论版 | 被引量 : 0次 | 上传用户:guojade_2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:本文对数据挖掘以及分类算法的内涵进行阐述,对数据挖掘中常用的分数算法技术改善策略进行分析,旨在推动我国数据分类算法技术的高速发展。
  关键词:大数据挖掘;分类算法技术;大数据分析
  引言
  在数字化办公环境下,我国各个行业领域开始选择应用大数据挖掘概念技术,给我国计算机产业的发展带来了发展机遇,促进了各式分类技术以及算法技术的高速发展。
  一、数据挖掘
  大数据本身是并不存在有效的价值意义,是需要对大数据进行有效处理才能让大数据产生实质性价值意义,为此大数据分析、大數据挖掘处理工作极为重要。大数据挖掘主要是指需要从海量、模糊性高、随机性高的数据信息中提取人们不曾了解,但十分有价值的信息过程。数据挖掘对象相对广泛,不仅能够对数据库进行数据挖掘,同时也能对文本数据资源进行数据挖掘。
  二、分类算法技术
  分类算法技术则是对已知类别的数据进行分析,对于其中存在的分类规律进行总结,以此为基础对新的数据类别进行预测。分类算法技术的本质就是将位置样本分布到已存类别的过程,分类过程实现可具体分为两个方面,一方面是以已知训练数据集为依托,构建用于描述预定数据类集的全新模型,另一方面则是在新型构建模型的基础上,对未知的数据进行分类,实现对相关数据的有效处理。
  三、大数据挖掘分类算法技术改善策略分析
  大数据挖掘技术就是从大量数据信息中寻找能够应用价值数据信息,数据挖掘技术是互联网技术发展下的产物,涉及到数据库、统计学以及电子学等多个智能领域。大数据挖掘中常用的分类算法技术主要分为三种,分别为决策树分类算法、神经网络分类算法以及朴素贝叶斯分类算法。
  (一)决策树分类算法
  决策树分类算法是以数据集为基础,对并没有规则顺序的样本数据信息进行推算,继而得出具体分类规则的算法,是归纳学习算法类型之一,同时也是组成决策方案的重要元素。决策树分类算法能够以树式图形式表现出来,实现对系统决策方案的选择,由于其展示形式较为形象直观,能够将不同决策时期的决策类问题进行显示,决策类问题以清晰的逻辑展现,将其构建成为直观形象的树形模型。决策树算法中包含的种类相对校对,像ID3算法、C4算法以及C5算法等都是常用的算法,与其他类型的分类算法技术相比较而言,决策树分类算法具备便于理解、实现的应用优势,对于数据挖掘技术人员而言,决策树分类算法的容易理解属性能够让其快速将决策树算法应用至实际分类之中。决策树分类算法具备运行速度相对较快的特征,这是由于决策树分类算法的工作量要小于其他类型分类算法的工作量,因此决策树分类算法的总计算应用时间相对较短。决策树分类算法同时也具备算法精准性相对较高的优势,将决策时分类算法应用至数据挖掘工作中,能够帮助工作人员快速、准确的根据分类规则进行数据分类,以树式图形式清晰直观的展示重点字节。
  决策树分类算法虽然具备多种应用优势,同时也不可避免存在一系列的应用问题,如决策树分类算法在应用过程中需要对连续性数据信息进行离散化处理,只有这样才能进行分类学习,对于已经具备时间顺序的数据,需要提前对其进行大规模性质的加工处理,同时若分类类别过多,存在决策树分类算法发生错误分类的问题。为此需要对决策树分类算法进行改善,可将监督学习任务算法应用至决策树分类算法之中,在决策树形成的初期阶段进行应用,能够随着决策树分类算法记录数量的提升,借助预排序方式实现对决策树分类算法的有效改善。
  (二)神经网络分类算法
  神经网络分类算法中神经网络主要是指人工神经网络,神经网络算法通过对生物大脑结构以及生物工作状态进行模拟,进而形成动态化、灵活化的信息处理模型。神经网络分类算法的具体应用原理为,一个神经网络就是一个计算单位,一个单位是由多层神经元组成,一个多层神经元包含三个层次,即“输入层次”、“输出层次”以及“隐含层次”。神经网络分类算法的具备精度相对较高以及较强的鲁棒性优势,神经网络分类算法具备一定的自我学习能力以及记忆能力,能够有效解答部分较为复杂的问题,由于人工审计网络具备非线性拟合功能,因此能够在不具备条件背景下利用变量进行线性组合后,将其转变为非线性组合,因此神经网络分类算法具备映射较为复杂非线性内容的优势。
  神经网络分类算法同样也具备相应的分类算法缺陷,最为典型的缺陷就是神经网络建设问题,通常情况下建立先进、完整的神经网络是需要花费大量的时间精力,对于技术人员的技术要求也相对较高,因此可利用提取规则对神经网络实施剪枝策略,将神经网络中分类准确程度影响相对较小进行去除,不能对分类结果造成影响的神经元进行去除,进行简化神经网络的构建。
  (三)朴素贝叶斯分类算法
  朴素贝叶斯分类算法是以统计学为基础开展的数据分类算法,朴素贝叶斯分类算法的应用实质为借助概率形式展现数据信息的不确定性。朴素贝叶斯分类算法的应用优势在于对于空间以及时间的应用开销相对较低,因此占用的系统资源相对较少,分类算法的运行速度也相对较快,同时朴素贝叶斯分类算法也具备逻辑思维简单明确的优势,大大增加朴素贝叶斯分类算法的可操作性。
  朴素贝叶斯分类算法的应用缺点在于,该分类算法应用需要立足于独立性的假设前提,这一应用场景是无法在现实情况下得到有效满足,导致朴素贝叶斯分类算法的分类准确性降低,为此需要对朴素贝叶斯分类算法进行再次升级创新,可应用选择贝叶斯算法进行数据分类。
  结语
  总而言之,为了能够有效应对大量数据的分类统计分析,相关领域对数据分类算法技术的应用程度不断加强,需要对大数据挖掘中应用的数据分类算法技术进行完善,加强对相关数据的有效处理。
  参考文献:
  [1]李金召.数据挖掘技术在软件工程中的应用与研究[J].计算机产品与流通,2020(05):30.
  [2]谢盛嘉.大数据时代背景下数据挖掘技术的应用研究[J].计算机产品与流通,2020(05):128.
  [3]臧玉魏,谢连科,张永,张国英,吴健,白晓春.基于电力营销聚类分析的数据挖掘算法研究[J].信息技术,2020,44(04):56-59+64.
  作者简介:
  余薇(1992)女.汉族.黑龙江大庆.本科 大庆油田信息技术公司 163000 中级工程师 软件开发
其他文献
摘 要:面对信息技术飞速发展形势下不断涌现的新兴事物及其所带来的挑战,电力企业的市场竞争就是对用户资源的争夺与充分利用。积分商城是电力企业推出的一种回馈服务,凭借电力企业现有的互联网业务模式,结合积分商城形成互联网一体化运营,构建丰富的用电服务体系,让用户可以通过使用电力企业互联网业务时获得和积累积分,然后进一步兑换虚拟产品与实物产品,从而提升用户活跃度、黏性。本文以电力企业积分商城设计建设为目
期刊
摘 要:伴随我国科学技术水平的逐渐升级,现代化发展速度不断加快,在此情况下,使得网络信息技术在各个领域中得到广泛应用,尤其是在医疗领域中的应用量较大,并且应用效果也较突出。因为医院机构信息化建设的不断深入,使得医院对于网络系统有了更高的依赖性,但是網络安全情况如何一定会对医院业务效果及运营管理产生较大的影响。所以现在有很多医院选择使用网络技术进行医院管理,同时还对以往医院管理模式实施了较大程度的
期刊
摘 要:城市化进程的持续推进,使建筑设施数量快速增长,这样就需要热电企业不断将供热管线进行延伸、扩大供热覆盖面积,随之而来的是建设投资成本不断提高,电气系统变得更加复杂。新时期的热电供应行业,不仅对供热质量提出了更高的要求,同时也要提高电气设备的运行稳定性,使其能够承担大面积、满负荷供热要求。基于此,本文简要对热电企业电气主接线要求、特点以及优化处理等方面进行了探究。  关键词:热电企业;电气主
期刊
摘 要:如今交通方式越来越多,汽车、轻轨、地铁、自行车、电瓶车等多种交通工具供我们使用,但是当前环境下仍然不能避免交通堵塞等情况,面对交通乱象城市交通系统需要更多人员维护城市交通。本文从智能交通系统的方面进行分析,根据当前智能交通安防集成技术的应用提出创新发展策略。  关键词:智能交通安防;技术应用;创新发展  引言:为了解决城市交通的乱象,我国针对城市交通现状研发出了智能交通系统,智能交通系统
期刊
摘 要:随着我国经济的飞速发展,我国对于社会建设工作愈发重视,在社会基础工程建设、社会思想建设、社会生态建设等方面我国都以高质量标准进行。而科学技术伴随着我国经济的不断发展而得到提高,其以互联网为首的科学技术当前已经融入于我国社会发展的方方面面,而现代事业单位作为我国的重要社会单位,其内部的人力资源管理对单位建设和发展极为关键。而当前,该项工作也受到互联网技术的影响,逐渐以网络信息化为主要的发展
期刊
摘 要:伴随社会经济的快速发展,许多新技术在在工业生产中得到有效应用,尤其是在电气工程及其自动化控制领域中,新技术应用更多,而PLC技术变为其一。本文首先对PLC技术进行了简要概述,指出了其在电气工程自动化控制当中的应用优势,探讨了其具体应用及策略,望能為此领域应用研究有所借鉴。  关键词:电气工程;自动化控制;PLC技术  PLC技术实为计算机技术与现代控制技术融合发展背景下所形成的产物,借此
期刊
摘 要:电力资源为人们的生活提供了强大的支撑,因此保障用电的质量和水平是电力企业用持续优化和改善的方向,装表接电工作是提供用户电力的基础服务,对于用户实际用电的体验具有重要的影响,因此需要对现场装裱接电工作给予较高的重视。对于该工作一些关键技术应进行重点的分析和探究,从而有效提升装表接电工作的能力和水平。本文对装表接电的意义进行阐述,并且对工作中存在的一些漏洞、问题和不足进行多个方面的分析,最后
期刊
摘 要:针对高校空调系统智能化程度低和能耗较高问题,设计开发了基于NB-IoT的空调智能管控系统,从主要硬件模块和主要软件功能两方面介绍了系统的设计,实现了空调系统高效节能智能化管理。  关键词:空调智能管控系统;NB-IoT;智能管理  引言  十三五期间,随着国家财政不断地加大教育事业的投入,各高校办学条件不断提高,多媒体课室、学生宿舍、实验室、办公室和图书馆等场所,基本上都安装了空调。空调
期刊
摘 要:在新产品的研发过程中,软件产品本身具有技术含量较高、成本较低、研发周期较短的特点,因此,软件产品的的研发管理必须要采取过程管理的方式,通过控制产品研发过程,优化产品研发质量,提高技术水平,强化对产品研发过程中细节的控制,进一步提高经济效益,实现良性发展。本文简要分析了软件新产品研发管理中过程管理基本特征,对软件新产品研发管理中过程管理的发展现状及应用方法进行深入探究。  关键词:新产品;
期刊
摘 要:近年来,配网作为电力系统中非常重要的工作环节,其工作具有一定的复杂性,这也使得工作难度有所提高。相关配电建设与运行管理人员在工作的过程中,首先要具备专业的技能,为配电网正常运行打下坚实的基础。另外配网建设涉及到的步骤较多,它包括配电设计、实施、维护等工作流程。所以在整个工作的过程中,工作部署的合理性非常重要。认真分析与配电安全性、有效性相关的工作环节,通过相关培训对出现的问题进行改进,才
期刊