论文部分内容阅读
[摘要]随着科技的迅猛发展,数据挖掘技术已经成为当前一大技术热点。介绍数据挖掘的定义和应用,分析数据挖掘的发展趋势。
[关键词]数据挖掘 定义 应用 趋势
中图分类号:TP2 文献标识码:A 文章编号:1671-7597(2008)1110069-01
一、数据挖掘的定义
数据挖掘是随着数据库和人工智能技术的发展而出现的一种新兴的自动信息提取技术。数据挖掘,又称为数据库中的知识发现,是指从大量的、不完全的、有噪声的、模糊的、随机的数据库中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
数据挖掘是一门广义的交叉学科,它从多个学科汲取营养,包括数据库技术、人工智能、机器学习、神经网络、统计学、模式识别、知识库系统、信息检索等。
二、数据挖掘的应用
数据挖掘技术从一开始就是面向应用的。它对特定数据进行统计、分析、综合和推理,以指导实际问题的求解,发现事件间的相互关联,力求利用已有的数据对未来的活动进行预测。
(一)零售和电子商务领域。销售领域是数据挖掘应用最早的领域。管理信息系统在零售业的普及,特别是条形码技术的使用,使得收集大量用户信息成为现实。销售数据挖掘有助于划分顾客群体,使用分类技术和聚类技术,可以更精确的挑选出潜在的顾客,以便进行销售预测;识别顾客购买行为,发现顾客购买模式和趋势,以便更好的进行货架摆设、促销设计等;通过数据挖掘,可以对销售数据进行深层次分析,采掘隐含在数据中的有用信息,发现和把握新的市场机会,促进销售及提高企业市场竞争力。利用数据挖掘,可进行电子商务海量商品信息采集,运用网络数据挖掘技术能够从服务器及浏览器端的日志中自动发现隐藏在数据中的模式信息,了解系统的访问模式及用户的行为模式,辅助商家理解用户行为,改进站点结构,调整销售策略,提供个性化服务。
(二)金融领域。银行、证券和保险等行业产生的数据量巨大,而且通常比较完整、可靠,这对系统化的数据分析和数据挖掘相当有利。采用多维数据分析来分析这些数据的一般特性,观察金融市场的变化趋势;使用数据可视化、分类、聚类分析、序列模式分析等工具对客户信誉进行分析,可以预防和侦破洗钱、恶性透支等欺诈行为;通过对客户信息的挖掘,分析什么样的客户可能会买什么保险,在向客户更好提供建议和服务的同时,达到赚更多钱的最终目的。
(三)教育领域。教育是国家的未来,数据挖掘技术在教育领域的应用为教育教学提供决策支持。选课系统积累大量数据,从数据挖掘角度出发,对原始数据进行预处理,以数据仓库和数据挖掘技术相结合,在实际应用中取得了很好的效果。图书馆正在向信息化和数字化的方向转变,利用数据挖掘技术可以更好的对图书馆资源进行重组、汇集、抽取和预测,更方便、快捷的从互联网上采集和转化信息,加快图书馆的数字化进程。将数据挖掘技术应用于教学管理,把学生基本信息、课程信息、成绩信息、教师信息等从数据库中抽取出来,为教学管理人员提供有力的信息支持和工作指导。
(四)军事领域。军事领域永远是科学研究不能遗忘的角落。在瞬息万变的今天,信息渗透到军事领域的各个方面,如何在情报信息的海洋中去粗取精,去伪存真,这就需要运用数据挖掘的相关方法提取精确的信息,为己方所用。
(五)科学研究及生物医学领域。科学研究工作者主要和数据打交道,每天要分析大量的实验或观测数据。要将科研实验数据转换成有价值的信息,就需要对科研实验数据进行挖掘。对数据挖掘而获得的信息,真实的反映出科研实验运作的本质及规律性,是支持正确科研实验决策的基础。
数据挖掘在生物学上的应用主要集中在分子生物学特别是基因工程的研究上。近几年,通过用计算生物分子系列分析方法,尤其是基因数据库搜索技术已在基因研究上拥有了很多重大发现。
数据挖掘在医学上的应用非常广泛。利用数据挖掘技术分析医学信息数据库中大量管理信息和临床信息资源,可以发现其中的医学诊断规则和模式,辅助医生进行疾病诊断。在药物合成方面,通过对药物分子化学结构的分析,可以确定药物中哪种原子或原子基因对哪种病能够发挥作用,这样在合成新药时,可根据新药的分子结构确定该药可能对治疗某种疾病产生效果。
(六)电信领域。在激烈的竞争和迅速的业务扩张中,可以利用数据挖掘技术帮助理解商业行为、确定电信模式、捕捉盗用行为、提高服务质量。利用数据挖掘技术的分析,可协助远程通讯组织策略的变更以适应外部环境的变化。通过数据挖掘技术,可以了解客户组类服务使用的结构和模式,指导决策人员对网络设施作出最佳投资决策。
三、数据挖掘应注意的问题
(一)数据挖掘涉及的数据结构非常复杂,海量数据在提供了挖掘的基础和前提的同时,维数的增加也会给数据挖掘的实现带来难度。如何进行探索,选择数据,选择分析变量,也就成为首要解决的问题。
(二)对数据挖掘的期望过高。用户对任何技术的期望都是越简单越好,希望通过数据挖掘快速得到一个唯一正确的答案。然而,数据挖掘的结果是不确定的,不同的人对同样的数据进行挖掘,可能差异很大,要和专业知识相结合才能对其做出判断。
(三)隐私与信息安全受到威胁。随着数据挖掘工具、电信和计算机网络的日益普及,数据挖掘隐私保护和信息安全问题日益突出。如果这一问题不能彻底解决,数据挖掘技术可能将面对被忍痛放弃的结局。
四、数据挖掘的发展趋势
数据挖掘技术是一个年轻且充满希望的研究领域,商业利益的强大驱动力将会不停的促进它的发展。数据挖掘发展的主要趋势为:可视化数据挖掘;多媒体数据挖掘;Web挖掘;生物信息或基因的数据挖掘;文本的数据挖掘等。
不管是研究领域还是应用领域,数据挖掘都是一个热门话题。随着计算机计算能力的发展和业务复杂性的提高,数据的类型会越来越多、越来越复杂,数据挖掘必将发挥出越来越大的作用。
参考文献:
[1]李成,数据挖掘技术的应用探析[J].内江科技.2008.6.
[2]蒋秀英,数据挖掘技术的应用研究[J].商场现代化.2008.10.
[3]夏瑞丽,浅谈数据挖掘[J].科技创新导报.2008.24.
[4]张鹏,浅谈数据挖掘技术及其应用[J].科技信息.2008.
[5]牛承珍、马季兰,浅谈数据挖掘应用[J].山西科技.2008.3.
[6]张景霞、陈建华,数据挖掘探析[J].赤峰学院学报.2008.4.
作者简介:
李志,女,河北衡水人,学士,武警学院基础部计算机教研室,讲师,研究方向为计算机科学教育、数据库设计。
[关键词]数据挖掘 定义 应用 趋势
中图分类号:TP2 文献标识码:A 文章编号:1671-7597(2008)1110069-01
一、数据挖掘的定义
数据挖掘是随着数据库和人工智能技术的发展而出现的一种新兴的自动信息提取技术。数据挖掘,又称为数据库中的知识发现,是指从大量的、不完全的、有噪声的、模糊的、随机的数据库中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
数据挖掘是一门广义的交叉学科,它从多个学科汲取营养,包括数据库技术、人工智能、机器学习、神经网络、统计学、模式识别、知识库系统、信息检索等。
二、数据挖掘的应用
数据挖掘技术从一开始就是面向应用的。它对特定数据进行统计、分析、综合和推理,以指导实际问题的求解,发现事件间的相互关联,力求利用已有的数据对未来的活动进行预测。
(一)零售和电子商务领域。销售领域是数据挖掘应用最早的领域。管理信息系统在零售业的普及,特别是条形码技术的使用,使得收集大量用户信息成为现实。销售数据挖掘有助于划分顾客群体,使用分类技术和聚类技术,可以更精确的挑选出潜在的顾客,以便进行销售预测;识别顾客购买行为,发现顾客购买模式和趋势,以便更好的进行货架摆设、促销设计等;通过数据挖掘,可以对销售数据进行深层次分析,采掘隐含在数据中的有用信息,发现和把握新的市场机会,促进销售及提高企业市场竞争力。利用数据挖掘,可进行电子商务海量商品信息采集,运用网络数据挖掘技术能够从服务器及浏览器端的日志中自动发现隐藏在数据中的模式信息,了解系统的访问模式及用户的行为模式,辅助商家理解用户行为,改进站点结构,调整销售策略,提供个性化服务。
(二)金融领域。银行、证券和保险等行业产生的数据量巨大,而且通常比较完整、可靠,这对系统化的数据分析和数据挖掘相当有利。采用多维数据分析来分析这些数据的一般特性,观察金融市场的变化趋势;使用数据可视化、分类、聚类分析、序列模式分析等工具对客户信誉进行分析,可以预防和侦破洗钱、恶性透支等欺诈行为;通过对客户信息的挖掘,分析什么样的客户可能会买什么保险,在向客户更好提供建议和服务的同时,达到赚更多钱的最终目的。
(三)教育领域。教育是国家的未来,数据挖掘技术在教育领域的应用为教育教学提供决策支持。选课系统积累大量数据,从数据挖掘角度出发,对原始数据进行预处理,以数据仓库和数据挖掘技术相结合,在实际应用中取得了很好的效果。图书馆正在向信息化和数字化的方向转变,利用数据挖掘技术可以更好的对图书馆资源进行重组、汇集、抽取和预测,更方便、快捷的从互联网上采集和转化信息,加快图书馆的数字化进程。将数据挖掘技术应用于教学管理,把学生基本信息、课程信息、成绩信息、教师信息等从数据库中抽取出来,为教学管理人员提供有力的信息支持和工作指导。
(四)军事领域。军事领域永远是科学研究不能遗忘的角落。在瞬息万变的今天,信息渗透到军事领域的各个方面,如何在情报信息的海洋中去粗取精,去伪存真,这就需要运用数据挖掘的相关方法提取精确的信息,为己方所用。
(五)科学研究及生物医学领域。科学研究工作者主要和数据打交道,每天要分析大量的实验或观测数据。要将科研实验数据转换成有价值的信息,就需要对科研实验数据进行挖掘。对数据挖掘而获得的信息,真实的反映出科研实验运作的本质及规律性,是支持正确科研实验决策的基础。
数据挖掘在生物学上的应用主要集中在分子生物学特别是基因工程的研究上。近几年,通过用计算生物分子系列分析方法,尤其是基因数据库搜索技术已在基因研究上拥有了很多重大发现。
数据挖掘在医学上的应用非常广泛。利用数据挖掘技术分析医学信息数据库中大量管理信息和临床信息资源,可以发现其中的医学诊断规则和模式,辅助医生进行疾病诊断。在药物合成方面,通过对药物分子化学结构的分析,可以确定药物中哪种原子或原子基因对哪种病能够发挥作用,这样在合成新药时,可根据新药的分子结构确定该药可能对治疗某种疾病产生效果。
(六)电信领域。在激烈的竞争和迅速的业务扩张中,可以利用数据挖掘技术帮助理解商业行为、确定电信模式、捕捉盗用行为、提高服务质量。利用数据挖掘技术的分析,可协助远程通讯组织策略的变更以适应外部环境的变化。通过数据挖掘技术,可以了解客户组类服务使用的结构和模式,指导决策人员对网络设施作出最佳投资决策。
三、数据挖掘应注意的问题
(一)数据挖掘涉及的数据结构非常复杂,海量数据在提供了挖掘的基础和前提的同时,维数的增加也会给数据挖掘的实现带来难度。如何进行探索,选择数据,选择分析变量,也就成为首要解决的问题。
(二)对数据挖掘的期望过高。用户对任何技术的期望都是越简单越好,希望通过数据挖掘快速得到一个唯一正确的答案。然而,数据挖掘的结果是不确定的,不同的人对同样的数据进行挖掘,可能差异很大,要和专业知识相结合才能对其做出判断。
(三)隐私与信息安全受到威胁。随着数据挖掘工具、电信和计算机网络的日益普及,数据挖掘隐私保护和信息安全问题日益突出。如果这一问题不能彻底解决,数据挖掘技术可能将面对被忍痛放弃的结局。
四、数据挖掘的发展趋势
数据挖掘技术是一个年轻且充满希望的研究领域,商业利益的强大驱动力将会不停的促进它的发展。数据挖掘发展的主要趋势为:可视化数据挖掘;多媒体数据挖掘;Web挖掘;生物信息或基因的数据挖掘;文本的数据挖掘等。
不管是研究领域还是应用领域,数据挖掘都是一个热门话题。随着计算机计算能力的发展和业务复杂性的提高,数据的类型会越来越多、越来越复杂,数据挖掘必将发挥出越来越大的作用。
参考文献:
[1]李成,数据挖掘技术的应用探析[J].内江科技.2008.6.
[2]蒋秀英,数据挖掘技术的应用研究[J].商场现代化.2008.10.
[3]夏瑞丽,浅谈数据挖掘[J].科技创新导报.2008.24.
[4]张鹏,浅谈数据挖掘技术及其应用[J].科技信息.2008.
[5]牛承珍、马季兰,浅谈数据挖掘应用[J].山西科技.2008.3.
[6]张景霞、陈建华,数据挖掘探析[J].赤峰学院学报.2008.4.
作者简介:
李志,女,河北衡水人,学士,武警学院基础部计算机教研室,讲师,研究方向为计算机科学教育、数据库设计。