论文部分内容阅读
摘 要: 數据挖掘就是从海量数据中提取潜在有趣模式的过程。数据挖掘技术现已广泛应用于零售业、金融业、电信、网络安全分析、农业、医疗卫生等领域,研究十分广泛。
关键词: 海量数据;数据挖掘;应用研究
【中图分类号】 TP311.1 【文献标识码】 A【文章编号】 2236-1879(2018)14-0178-01
一、数据挖掘概念
数据挖掘比较公认的定义是由U.M.Fayyad等人提出的:数据挖掘就是从海量数据中提取潜在有趣模式的过程[1]。还有一些术语,具有和数据挖掘类似但稍有不同的含义,如数据库中知识挖掘、知识提取、数据/模式分析、数据考古等。数据挖掘技术最初是面向应用层面的,不光可以实现检索和统计专门数据库的操作,还能够在大量的数据集中实现小型、中型乃至大型系统的分析、归纳、推理等工作。
二、数据挖掘的基本任务
数据挖掘的目的就是发现有用的知识(即概念、规则和模式)。数据挖掘的基本任务主要有以下几个方面:
(1)分类与预测。
分类属于有监督的学习,在构建分类模型之前,在数据源中选取训练集数据并作分类标记,然后运用分类模型对训练集数据进行分类,实在是按照样本属性相近的划入一类,最后将完成训练的分类模型应用到在未知类别的数据集中,获得相应的分类。预测是依据历史数据和现有的数据建立两种或两种以上变量间相互依赖的函数模型,然后进行预测或控制。
(2)聚类分析。
聚类分析是在识别数据的内在规则后,将数据分成相似数据对象组,从而获得数据的分布规律,划分的原则是不同组间距离尽可能大,组内距离尽可能小。聚类分析进一步是打算从一组杂乱的数据中发掘隐藏其中的分类规则。聚类分析与分类模式模型不同,分类模式是使用有标记样本构成的训练集的一种有监督学习方法,则聚类模型是使用在无标记的数据上的一种无监督学习方法。近年来,聚类分析在图像处理、商业分析、模式识别等有广泛应用。
(3)关联规则。
关联分析是通过对数据集中数据之间隐藏的相互关系的分析,揭露了具有相同类别的数据之间未知的关系。关联分析就是将给定一组项集和一个记录集合,通过对记录集合的分析,推导项集间的相关性,侧重确定数据中在不同领域之间的联系,并找出符合用户给定的最小支持度和最小置信度的依赖关系。著名的Apriori算法就属于目前关联规则中最常用的算法模型之一。
(4)时序模式。
时间序列预测是一种依据事物过去的历史资料记录延伸到未来的预测,是以时间序列所能反映现象的发展过程和规律性,建立比较精确地反应动态依存关系的数学模型,然后进行引伸外推,预测其发展趋势的方法。
(5)偏差检测。
偏差检测,也称异常检测,主要是从数据中提取其中的偏差和异常。偏差检测的方法主要有:(1)基于邻近度的技术;(2)基于模型的方法;(3)基于密度的技术。
三、数据挖掘的应用领域
数据挖掘技术现已广泛应用于零售业、金融业、电信、网络安全分析、农业、医疗卫生等领域。
(1)零售业方面:该方面的应用最早是在美国,超市运用数据挖掘分析售货记录从中发掘有关购买商品的一些特征,来调整摆放商品的位置,提高了销售额。
(2)电子商务方面:利用数据挖掘技术来分析系统中客户购买记录,得到如学生、白领、教师等不同客户群体,然后按照客户群体的划分来提供个性化的促销活动。
(3)金融业方面:美国花旗银行运用数据挖掘来智能分析银行信用卡业务数据来区别客户信用等级,其恶性透支减少了,且每年避免的损失达十几亿美元。结合分析客户的刷卡记录之后的结果实现对客户的流失风险的预测;运用数据挖掘来识别和判断非正常的交易,有效地减少客户和企业的意外损失;通过分析客户消费特点来推荐合适的理财产品。
(4)通信方面:为了发掘客户潜在需求,通过对以往客户行为特征数据挖掘分析,应用挖掘结果在风险可控范围内来制定针对性的套餐设计与定价,提高了套餐的接受度,避免了老客户的流失和增加了新入网数,实现了业务量的提升。
(6)网络安全方面:计算机网络安全管理部门在信息系统的安全管理中,运用基于规则集的访问控制技术和系统网络日志文件,通过数据挖掘技术检测出系统未授权用户非法访问受保护数据,来检测黑客程序的入侵。
(7)在农业方面,通过卫星图片作为信息源预测森林火灾的路径和趋势。Umama-heshwaran et al.[22]利用卫星拍摄的图片来研究森林火灾的产生以及发展时的动态变化过程,开发了一个实时监测系统,能够实现对森林火灾变化的检测和跟踪。
(8)在医疗方面,Maria-Luiza Antonie[2]通过对比数据挖掘技术中的关联规则和神经网络来乳腺癌图片的实验结果,分类精确率都能达到70%,而关联规则效果更好。通过有效的乳腺癌图片的分类可以减少医生准确获取有效信息的工作量。
(9)在Web数据挖掘中,将数据挖掘应用到搜索引擎,产生智能搜索引擎,给用户提供一个高效、准确的Web检索工具。还将数据挖掘用到站点访问模式分析、网页内容自动分类、聚类等[3]。
参考文献
[1] 王国勋.基于多目标决策的数据挖掘模型选择研究:[博士学位论文].成都:电子科技大学,2013.
[2] 丁冲,范钧,栾添.图像数据挖掘相关研究综述—概念和应用[J].统计教育,2008(12):8-12+7
[3] 杨占华,杨燕.数据挖掘在智能搜索引擎中的应用[J].微计算机信息,2006(12):244-246.
关键词: 海量数据;数据挖掘;应用研究
【中图分类号】 TP311.1 【文献标识码】 A【文章编号】 2236-1879(2018)14-0178-01
一、数据挖掘概念
数据挖掘比较公认的定义是由U.M.Fayyad等人提出的:数据挖掘就是从海量数据中提取潜在有趣模式的过程[1]。还有一些术语,具有和数据挖掘类似但稍有不同的含义,如数据库中知识挖掘、知识提取、数据/模式分析、数据考古等。数据挖掘技术最初是面向应用层面的,不光可以实现检索和统计专门数据库的操作,还能够在大量的数据集中实现小型、中型乃至大型系统的分析、归纳、推理等工作。
二、数据挖掘的基本任务
数据挖掘的目的就是发现有用的知识(即概念、规则和模式)。数据挖掘的基本任务主要有以下几个方面:
(1)分类与预测。
分类属于有监督的学习,在构建分类模型之前,在数据源中选取训练集数据并作分类标记,然后运用分类模型对训练集数据进行分类,实在是按照样本属性相近的划入一类,最后将完成训练的分类模型应用到在未知类别的数据集中,获得相应的分类。预测是依据历史数据和现有的数据建立两种或两种以上变量间相互依赖的函数模型,然后进行预测或控制。
(2)聚类分析。
聚类分析是在识别数据的内在规则后,将数据分成相似数据对象组,从而获得数据的分布规律,划分的原则是不同组间距离尽可能大,组内距离尽可能小。聚类分析进一步是打算从一组杂乱的数据中发掘隐藏其中的分类规则。聚类分析与分类模式模型不同,分类模式是使用有标记样本构成的训练集的一种有监督学习方法,则聚类模型是使用在无标记的数据上的一种无监督学习方法。近年来,聚类分析在图像处理、商业分析、模式识别等有广泛应用。
(3)关联规则。
关联分析是通过对数据集中数据之间隐藏的相互关系的分析,揭露了具有相同类别的数据之间未知的关系。关联分析就是将给定一组项集和一个记录集合,通过对记录集合的分析,推导项集间的相关性,侧重确定数据中在不同领域之间的联系,并找出符合用户给定的最小支持度和最小置信度的依赖关系。著名的Apriori算法就属于目前关联规则中最常用的算法模型之一。
(4)时序模式。
时间序列预测是一种依据事物过去的历史资料记录延伸到未来的预测,是以时间序列所能反映现象的发展过程和规律性,建立比较精确地反应动态依存关系的数学模型,然后进行引伸外推,预测其发展趋势的方法。
(5)偏差检测。
偏差检测,也称异常检测,主要是从数据中提取其中的偏差和异常。偏差检测的方法主要有:(1)基于邻近度的技术;(2)基于模型的方法;(3)基于密度的技术。
三、数据挖掘的应用领域
数据挖掘技术现已广泛应用于零售业、金融业、电信、网络安全分析、农业、医疗卫生等领域。
(1)零售业方面:该方面的应用最早是在美国,超市运用数据挖掘分析售货记录从中发掘有关购买商品的一些特征,来调整摆放商品的位置,提高了销售额。
(2)电子商务方面:利用数据挖掘技术来分析系统中客户购买记录,得到如学生、白领、教师等不同客户群体,然后按照客户群体的划分来提供个性化的促销活动。
(3)金融业方面:美国花旗银行运用数据挖掘来智能分析银行信用卡业务数据来区别客户信用等级,其恶性透支减少了,且每年避免的损失达十几亿美元。结合分析客户的刷卡记录之后的结果实现对客户的流失风险的预测;运用数据挖掘来识别和判断非正常的交易,有效地减少客户和企业的意外损失;通过分析客户消费特点来推荐合适的理财产品。
(4)通信方面:为了发掘客户潜在需求,通过对以往客户行为特征数据挖掘分析,应用挖掘结果在风险可控范围内来制定针对性的套餐设计与定价,提高了套餐的接受度,避免了老客户的流失和增加了新入网数,实现了业务量的提升。
(6)网络安全方面:计算机网络安全管理部门在信息系统的安全管理中,运用基于规则集的访问控制技术和系统网络日志文件,通过数据挖掘技术检测出系统未授权用户非法访问受保护数据,来检测黑客程序的入侵。
(7)在农业方面,通过卫星图片作为信息源预测森林火灾的路径和趋势。Umama-heshwaran et al.[22]利用卫星拍摄的图片来研究森林火灾的产生以及发展时的动态变化过程,开发了一个实时监测系统,能够实现对森林火灾变化的检测和跟踪。
(8)在医疗方面,Maria-Luiza Antonie[2]通过对比数据挖掘技术中的关联规则和神经网络来乳腺癌图片的实验结果,分类精确率都能达到70%,而关联规则效果更好。通过有效的乳腺癌图片的分类可以减少医生准确获取有效信息的工作量。
(9)在Web数据挖掘中,将数据挖掘应用到搜索引擎,产生智能搜索引擎,给用户提供一个高效、准确的Web检索工具。还将数据挖掘用到站点访问模式分析、网页内容自动分类、聚类等[3]。
参考文献
[1] 王国勋.基于多目标决策的数据挖掘模型选择研究:[博士学位论文].成都:电子科技大学,2013.
[2] 丁冲,范钧,栾添.图像数据挖掘相关研究综述—概念和应用[J].统计教育,2008(12):8-12+7
[3] 杨占华,杨燕.数据挖掘在智能搜索引擎中的应用[J].微计算机信息,2006(12):244-246.