论文部分内容阅读
【文章摘要】
随着信息技术的发展和互联网技术的普及,现代信息系统已经进入了大数据的时代。如何从大量的数据中找到真正有价值的信息,成为急需解决的问题。鉴于此,数据挖掘技术应运而生。本文分析了数据挖掘技术的定义和过程,并介绍了常用的数据挖掘技术和对数据挖掘技术的应用进行了介绍。
【关键词】
数据挖掘;分析;应用
数据挖掘是一个跨多学科和多个知識领域的交叉的新兴课题,数据挖掘使人们对数据的应用方式从简单的查询提升至对数据挖掘行为的支持,数据挖掘涵盖了模式识别领域、数据库领域、统计学领域、可视化领域等多个领域,目前数据挖掘技术已经成了新兴的研究技术热点。
1 数据挖掘的定义
数据挖掘准确的讲就是对大量的、杂乱的数据进行分析处理,发现其中隐藏的有用的信息,并为一些决策提供支持;从数据挖掘的技术角度讲,数据挖掘技术就是利用相关的技术和算法,从大量杂乱的数据中找到人们需要的有用信息和知识,知识可以以概念和模式、规则、规律等形式表现出来,通过对数据的分析,可以找到一些潜在的关系和模式,并协助预测未来可能发生的情况和产生的结果。
2 数据挖掘的过程
在数据挖掘之前,先要确定数据挖掘的目的,把问题和目标任务定义出来,确定数据挖掘的目的之后,根据数据挖掘的常规步骤开始挖掘知识信息,整个数据挖掘的过程可以概括总结分为数据准备阶段、数据挖掘阶段以及结果的解释和评价阶段,数据准备阶段分为数据清理、集成、选择和变换等过程。完整数据挖掘过程如下图1所示:
3 数据挖掘常用技术简介
数据挖掘技术有很多种,常用的有统计技术、关联规则、基于历史的分析MBR等,介绍如下:
3.1 统计技术
数据挖掘技术涉及到了多个学科领域和技术,其中也涉及到了统计技术,统计技术的应用主要是给数据聚合设定了一个分部模型,然后采用与模型相适应的方法进行数据挖掘。
3.2 关联规则
如果两个或者是多个变量的之间存在某种规律性,这就可以称为关联,关联分为简单、因果和时序关联。
3.3 基于历史的分析MBR
MBR的主要概念就是用一些已知的案例作为模型,通过这些模型,对新案例进行估值和预测,MBR分析中主要有距离函数和结合函数两个因素,距离函数的作用就是找出相似的相关案例,结合函数就是将这些相关的案例结合起来,在预测的时候可以用到这些案例,这个方法有两个优点,一是,能容许各种型态的数据,二是,有学习的能力,可以从旧案例中获取新知识。
3.4 遗传算法GA
遗传算法的主要思想是根据适者生存的原则,新的群体由最适合规则和这些规则的后代的这部分群体组成,一般情况下,样本集分类的评估通过这些规则的适合度来完成。
3.5 连接分析
连接分析的主要理论是图论,图论的主题思想就是要寻找得出一个好结果的算法,这种好的结果不是最完美的结果的算法,如果这种不完美的结果是可行的,这样的分析就是一个好分析,通过连接分析,可以从用户的行为中分析总结出规律性的模式,并将这种新的概念应用在广泛的用户上。
3.6 决策树
决策树就是有着很强的解决归类和预测的能力,它的表达方式是法则,这些法则的展示是通过一连串的问题表现出来,经过不断询问问题的过程,导出所需要的结果,典型的决策树的底部有很多树叶,其顶端是一个树根,它将记录分成很多的子集,每个子集中包含一个简单的法则,决策树有二元树、三元树等很多不同的外型。
3.7 聚类分析
聚类分析涵盖的技术范围很广泛,很多算法都有聚类分析这个功能如基因算法、统计学中的群集分析、类神经网络等,聚类分析的目标就是找出数据中以前所不知道的相似群体,研究的开端一般都会用到群集侦测技术。
3.8 神经网络(Neural Networks)
神经网络在结构上可以分为输入层、输出层和隐含层,它是利用重复学习的方法,在一串例子中进行归纳学习,然后归纳出可以区分的样式,神经网络可以通过对过去学习的成果进行归纳,推导出一些新的例证的结果,神经网络的学习也属于机器学习的一种,类神经学习的方式也可以应用在数据挖掘的相关问题上。
3.9 回归分析
回归分析可以分为线性回归分析、非线性回归分析、多元回归分析三种,线性回归分析中采用数据采用直线建模的方式,多元回归涉及到多个预测变量,是线性回归的一种扩展方式,非线性回归模型是在非线性回归的基本线性模型添加多项式。
4 应用研究
数据挖掘技术能在大量的数据信息中方便快捷的找到有用的信息,并将这些信息充分利用。数据挖掘技术的应用可以增强企业的竞争力,在缩短销售周期的基础上降低了产品的生产成本,在信息资源开发方面数据挖掘技术也有其明显的优势,数据挖掘技术应用的行业越来越广泛如保险、市场营销、制造业、教育、医疗和电信业以及科学研究。
4.1 数据挖掘技术在制造业的应用
数据挖掘技术的在制造业中的应用,主要是在生产的过程中,如果零部件出现故障,可以通过数据挖掘技术对故障进行详细的分析,发现故障产生的根本原因,并及时纠正,及时发现分布不正常的数据,只有这样才能帮助工程师及时发现问题并采取正确的措施改进。
4.2 数据挖掘技术在市场营销的应用
数据挖掘技术在市场营销上面应用也很频繁和广泛,在这个领域中数据挖掘技术可以分为货篮分析数据库和市场营销数据库两种类型,货篮分析数据库的作用就是分析营销的数据,市场营销数据库就是利用自身的技术方法向顾客推销产品,合理运用数据挖掘技术可以提高商家的信誉并及时发现潜在的客户。
4.3 数据挖掘技术在科学研究的应用
在科学研究的技术领域,数据挖掘技术可以观测和分析大量的实验数据,由于现在的科研数据很多,而且较为繁琐,一些传统的数据分析方法不能满足科研的需要,所以对一些强大的数据分析的智能工具的需求力很强,这也在一定程度上促进了数据挖掘技术的发展。在生物的科研领域,实验室人员对DNA的数据进行分析,通常利用相似的检索技术和序列模式,采用关联分析识别方法对同一时间出现的基因序列进行识别分析,这样能够及时发现每个阶段产生疾病的根本原因。
【参考文献】
[1]杨永升.基于数据挖掘的电信企业客户关系管理研究[D].江苏科技大学,2012.
[2]赵一丁,邵开丽,李志民,楚纪正. 基于测试需求的数据挖掘及测试数据生成[J]. 计算机测量与控制,2013,08:2043-2045.
【作者简介】
宋伟,1984.10,男,西安人,本科,助理工程师,研究方向:入侵检测,数据挖掘
随着信息技术的发展和互联网技术的普及,现代信息系统已经进入了大数据的时代。如何从大量的数据中找到真正有价值的信息,成为急需解决的问题。鉴于此,数据挖掘技术应运而生。本文分析了数据挖掘技术的定义和过程,并介绍了常用的数据挖掘技术和对数据挖掘技术的应用进行了介绍。
【关键词】
数据挖掘;分析;应用
数据挖掘是一个跨多学科和多个知識领域的交叉的新兴课题,数据挖掘使人们对数据的应用方式从简单的查询提升至对数据挖掘行为的支持,数据挖掘涵盖了模式识别领域、数据库领域、统计学领域、可视化领域等多个领域,目前数据挖掘技术已经成了新兴的研究技术热点。
1 数据挖掘的定义
数据挖掘准确的讲就是对大量的、杂乱的数据进行分析处理,发现其中隐藏的有用的信息,并为一些决策提供支持;从数据挖掘的技术角度讲,数据挖掘技术就是利用相关的技术和算法,从大量杂乱的数据中找到人们需要的有用信息和知识,知识可以以概念和模式、规则、规律等形式表现出来,通过对数据的分析,可以找到一些潜在的关系和模式,并协助预测未来可能发生的情况和产生的结果。
2 数据挖掘的过程
在数据挖掘之前,先要确定数据挖掘的目的,把问题和目标任务定义出来,确定数据挖掘的目的之后,根据数据挖掘的常规步骤开始挖掘知识信息,整个数据挖掘的过程可以概括总结分为数据准备阶段、数据挖掘阶段以及结果的解释和评价阶段,数据准备阶段分为数据清理、集成、选择和变换等过程。完整数据挖掘过程如下图1所示:
3 数据挖掘常用技术简介
数据挖掘技术有很多种,常用的有统计技术、关联规则、基于历史的分析MBR等,介绍如下:
3.1 统计技术
数据挖掘技术涉及到了多个学科领域和技术,其中也涉及到了统计技术,统计技术的应用主要是给数据聚合设定了一个分部模型,然后采用与模型相适应的方法进行数据挖掘。
3.2 关联规则
如果两个或者是多个变量的之间存在某种规律性,这就可以称为关联,关联分为简单、因果和时序关联。
3.3 基于历史的分析MBR
MBR的主要概念就是用一些已知的案例作为模型,通过这些模型,对新案例进行估值和预测,MBR分析中主要有距离函数和结合函数两个因素,距离函数的作用就是找出相似的相关案例,结合函数就是将这些相关的案例结合起来,在预测的时候可以用到这些案例,这个方法有两个优点,一是,能容许各种型态的数据,二是,有学习的能力,可以从旧案例中获取新知识。
3.4 遗传算法GA
遗传算法的主要思想是根据适者生存的原则,新的群体由最适合规则和这些规则的后代的这部分群体组成,一般情况下,样本集分类的评估通过这些规则的适合度来完成。
3.5 连接分析
连接分析的主要理论是图论,图论的主题思想就是要寻找得出一个好结果的算法,这种好的结果不是最完美的结果的算法,如果这种不完美的结果是可行的,这样的分析就是一个好分析,通过连接分析,可以从用户的行为中分析总结出规律性的模式,并将这种新的概念应用在广泛的用户上。
3.6 决策树
决策树就是有着很强的解决归类和预测的能力,它的表达方式是法则,这些法则的展示是通过一连串的问题表现出来,经过不断询问问题的过程,导出所需要的结果,典型的决策树的底部有很多树叶,其顶端是一个树根,它将记录分成很多的子集,每个子集中包含一个简单的法则,决策树有二元树、三元树等很多不同的外型。
3.7 聚类分析
聚类分析涵盖的技术范围很广泛,很多算法都有聚类分析这个功能如基因算法、统计学中的群集分析、类神经网络等,聚类分析的目标就是找出数据中以前所不知道的相似群体,研究的开端一般都会用到群集侦测技术。
3.8 神经网络(Neural Networks)
神经网络在结构上可以分为输入层、输出层和隐含层,它是利用重复学习的方法,在一串例子中进行归纳学习,然后归纳出可以区分的样式,神经网络可以通过对过去学习的成果进行归纳,推导出一些新的例证的结果,神经网络的学习也属于机器学习的一种,类神经学习的方式也可以应用在数据挖掘的相关问题上。
3.9 回归分析
回归分析可以分为线性回归分析、非线性回归分析、多元回归分析三种,线性回归分析中采用数据采用直线建模的方式,多元回归涉及到多个预测变量,是线性回归的一种扩展方式,非线性回归模型是在非线性回归的基本线性模型添加多项式。
4 应用研究
数据挖掘技术能在大量的数据信息中方便快捷的找到有用的信息,并将这些信息充分利用。数据挖掘技术的应用可以增强企业的竞争力,在缩短销售周期的基础上降低了产品的生产成本,在信息资源开发方面数据挖掘技术也有其明显的优势,数据挖掘技术应用的行业越来越广泛如保险、市场营销、制造业、教育、医疗和电信业以及科学研究。
4.1 数据挖掘技术在制造业的应用
数据挖掘技术的在制造业中的应用,主要是在生产的过程中,如果零部件出现故障,可以通过数据挖掘技术对故障进行详细的分析,发现故障产生的根本原因,并及时纠正,及时发现分布不正常的数据,只有这样才能帮助工程师及时发现问题并采取正确的措施改进。
4.2 数据挖掘技术在市场营销的应用
数据挖掘技术在市场营销上面应用也很频繁和广泛,在这个领域中数据挖掘技术可以分为货篮分析数据库和市场营销数据库两种类型,货篮分析数据库的作用就是分析营销的数据,市场营销数据库就是利用自身的技术方法向顾客推销产品,合理运用数据挖掘技术可以提高商家的信誉并及时发现潜在的客户。
4.3 数据挖掘技术在科学研究的应用
在科学研究的技术领域,数据挖掘技术可以观测和分析大量的实验数据,由于现在的科研数据很多,而且较为繁琐,一些传统的数据分析方法不能满足科研的需要,所以对一些强大的数据分析的智能工具的需求力很强,这也在一定程度上促进了数据挖掘技术的发展。在生物的科研领域,实验室人员对DNA的数据进行分析,通常利用相似的检索技术和序列模式,采用关联分析识别方法对同一时间出现的基因序列进行识别分析,这样能够及时发现每个阶段产生疾病的根本原因。
【参考文献】
[1]杨永升.基于数据挖掘的电信企业客户关系管理研究[D].江苏科技大学,2012.
[2]赵一丁,邵开丽,李志民,楚纪正. 基于测试需求的数据挖掘及测试数据生成[J]. 计算机测量与控制,2013,08:2043-2045.
【作者简介】
宋伟,1984.10,男,西安人,本科,助理工程师,研究方向:入侵检测,数据挖掘