数据挖掘的发展及功能概述

来源 :科学与财富 | 被引量 : 0次 | 上传用户:fankyxu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:数据挖掘是人工智能和自然语言理解等相关技术的综合利用,目的是从大量数据中提取出可利用、有价值的信息或模式。人工智能、数据库技术、概率与数理统计等技术是现代数据挖掘技术的主要支柱。而数据挖掘过程中应用的技术越多,其得到的结果就越准确。
  关键词:数据挖掘;发展进程;应用研究
  1 数据挖掘相关概念
  数据挖掘与传统的数据分析(如查询、报告、在线分析处理)不同的是,数据挖掘的前提假设是没有明确的信息挖掘和知识发现。数据挖掘得到的信息应该具有未知,有效和实用三个特点。事先未知的信息指的是不可预见的,也就是说,数据挖掘就是发现那些找不到信息,甚至违反直觉的信息或知识,挖掘出更意想不到的信息,可能会更有价值,而且它是一个重要的过程,也可能开采过程不是线性的,而是反复循环,挖掘知识不是通过一个简单的分析,而是通过大量数据的比较分析,利用一些特殊的處理大量的数据所使用的据挖掘工具才可以实现。
  2 数据挖掘的功能应用
  数据挖掘的任务通常可分为两类:描述和预测。描述性挖掘任务显示数据库中的数据的一般特征。预测性挖掘任务在当前数据上进行推断,以进行预测。
  (l)通过概念描述发现广义知识
  广义知识是知识特性的一般描述,是对数据的概括、提炼和抽象。概念描述是对某些对象的内涵进行描述,总结这种类型的对象的特征。概念描述分成特征描述和区别性描述,前者描述特定对象的共同特征,后者描述不同的类和对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。产生区别性描述的方法很多,如决策树方法、遗传算法等。概念描述方法和实现技术有很多,如数据立方体,面向属性归纳等等。数据立方体也有其他别名,如“多维数据库”、“视图”、“OLA”等。
  (2)通过关联分析发现关联知识
  数据关联是数据库中存在的一类重要的可被发现的知识。如果两个或两个以上的变量值之间存在某种某种规律,则称为一个关联。关联可分为简单关联、时序关联、因果关联。关联知识是反映一个事件和其他事件之间依赖或关联的知识。如果两个或更多属性之间存在关联,那么其中一项的属性值就可以依据其他属性值进行预测。
  (3)通过分类和聚类方法发现分类知识
  分类知识反映了同类事物共同性质的特征型知识和不同事物之间的差异型特征知识。其中最典型的分类方法是基于决策树的分类方法,即从实例构建决策树,是一种指导学习方法。该方法根据训练子集(也被称为窗口)形成决策树。如果树不能给所有对象的正确分类,然后选择一些例外添加到窗口,重复这个过程,直到形成正确的决策集。最终的结果是一棵树,它的叶子节点是类名,中间节点属性是一个分支,分支应是属性的某一个可能值。常用分类技术有贝叶斯分类和贝叶斯网络、神经网络、遗传算法、粗糙集、模糊逻辑等。
  (4)通过预测方法得到预测型知识
  预测型知识指的是根据时间序列数据,通过历史和当前数据推测未来的数据,也可以认为这是以时间为关键属性的关联知识。目前,时间序列预测方法有经典统计方法、神经网络和机器学习等。1968博克斯和詹金斯已经提出了一套相对完整的时间序列建模理论和分析方法,这些经典的数学方法通过建立随机模型,如自回归移动平均模型和季节性调整模型等对时间序列进行预测。因为大量的时间序列是非平稳的,特征参数和数据分布随时间变化的,因此,仅仅通过对某段历史数据的分析,创建一个单一的神经网络预测模型不能准确预测任务。由于这个原因,人们提出了基于统计学和基于精度性的再训练方法,当发现现有的预测模型不再适合当前数据时,对模型重新排练,获得一个新的权重参数,建立一个新的模型。
  (5)通过偏差检测得到偏差型知识
  偏差检测对检测数据库中常出现的异常记录是非常有意义的,而偏差知识就是对差异和极端特例的描述,它揭示了事物偏离常规的异常现象,例如在分类中存在的反常实例、观测值与预测值之间的偏差、随时间而变化的量值和不满足规则的特例等。随着概念层次的提升,这些知识都可以被发现,从微观到宏观满足不同用户的需要,也能满足不同层次决策的需要。
  4 当前数据挖掘的主要技术
  人工智能、数据库技术、概率与数理统计等技术是现代数据挖掘技术的主要支柱。而数据挖掘过程中应用的技术越多,其得到的结果就越准确。以下是常用的数据挖掘技术:
  (1)关联分析。关联规则是数据挖掘研究的主要模式之一。通过关联分析可以挖掘隐藏在数据间的相互关系以及发现用户浏览时的相关页面,从数据中挖掘出最大频繁访问项集,再经过关联商品喜好分析得出顾客的购物倾向。在电子商务中,用户关联分析的典型例子是购物篮分析,描述顾客的购买行为,可以帮助零售商决定商品的捆绑销售策略如著名的(面包-黄油-牛奶)例子就属于关联分析访问模式。所以网页上摆放商品的时候可以将面包、黄油、牛奶一起出售,这对于企业确定生产销售产品分类,设计市场分析等多方面是有价值的。
  (2)聚类分析方法。聚类分析就是直接比较样本中各事物之间的性质,将性质相近的归为一类,而将性质差别较大的分在不同的类。对变量聚类计算变量之间的距离,对样本聚类则计算样本之间的距离它的目的是使得属于同一类别的个体之间的距离尽可能小,而不同类别上的个体间的距离尽可能大。
  在电子商务中,聚类分析常用于市场细分,根据已有客户的数据,利用聚类技术将市场按客户消费模式的相似性分为若干细分市场,以进行有针对性的市场营销,提供更适合、更满意的服务。通过对聚类的客户特征的分析,电子商务网站可以为客户提供个性化的服务。
  (3)分类和预测。分类和预测功能可以用来提取描述重要数据类的模型,并使用模型来预测未来的数据趋势。最常用的算法有判定归纳树、贝叶斯分类法、距离分割算法等。分类分析是数据挖掘中应用最多的方法,分类是将事件或对象归类,这样既可以分析已有的数据,也可以用来预测未来的数据分类,通过分析已知分类信息的历史数据,总结出一个预测模型,预测哪些人可能会对产品目录等有反应,可以针对这一类客户的特点展开商务活动,同样可以提供个性化的信息服务。
  (4)序列模式分析。序列模式挖掘就是要挖掘出交易集之间有时间序列关系的模式。它挖掘的侧重点在于分析数据间的前后或因果关系,序列模式中要找到一些项跟随另一些项,以预测未来。与序列模式分析和关联分析类似,其目的也是为了挖掘数据之间的联系,但序列模式分析的侧重点在于分析数据间的前后或者因果关系,序列模式便于进行电子商务的组织,预测客户的访问模式,对客户开展有针对性的广告服务或者主动推荐客户感兴趣的页面,以满足访问者的特定要求。
  在实际的应用过程中,上述所有技术往往不是单独使用的,各种方法的综合利用才能够最好的满足人们的不同需求。
  参考文献:
  [1]任新. Web数据挖掘及其在电子商务中的应用研究[D].贵州大学,2008.
  [2]沈红超. 数据挖掘技术在电子商务中的应用研究[D].江南大学,2009.
  [3]韩英. 浅谈数据挖掘技术在电子商务中的应用[J]. 太原城市职业技术学院报,2013,04:170-171.
其他文献
摘 要:随着我国国民经济的快速发展和科学技术的日益进步,我国煤矿企业也取得了快速发展,煤矿机电技术逐渐被应用到各个煤矿企业,有效地促进了煤矿企业的发展。本文主要针对煤矿机电技术一体化应用的重要性、煤矿机电一体化技术的发展现状、煤矿机电技术的创新以及发展趋势做了简要分析,以供参考。  关键词:煤矿;机电技术;创新应用  0 引言  我国煤矿资源丰富,拥有较长的煤矿发展史。随着煤矿技术的不断进步,煤矿
期刊
摘 要:目前社会的高速发展,为信息化,数据化开拓了更大的市场,科学研究的推进也使得我国的先进技术取得了一定的成果,尤其在电子信息工程方面。该篇文章主要对电子信息工程的发展现状及现代化技术的发展进行分析,从而为技术之后的发展提供一定的想法。  关键词:电子信息工程 ;发展现状;现代化技术  当今社会发展的趋势越发明显,可以明显的看出电子信息工程的发展非常迅速,虽然相比于一些发达国家,我们对电子信息工
期刊
摘 要:目前锅炉烟气脱硫中对除雾器冲洗电动阀的控制中广泛使用顺控,但电动阀门有时会发生故障现象,开和关到位反馈信号无法正常反馈给控制系统,进而会影响到其它除雾器冲洗阀门的正常进行;就此,本文针对以上问题根据现场经验总结出一套简单易行的除雾器冲洗阀顺控,并已在现实工程中应用。不但预防除雾器冲洗阀门故障对整个顺控过程的影响,保证除雾器冲洗阀门顺利进行,而且大大减少冲洗水压力的波动,防止供水管路振动大。
期刊
摘 要:预制装配式结构作为新兴的绿色环保节能施工技术,现如今已经被广泛应用于建筑工程施工中,但其中的关键技术仍然存在着许多问题,对建筑工程的整体施工质量存在一定程度的影响。因此,加强对预制装配式结构施工技术的研究对于建筑工程整体施工质量的提升有重要意义。文章主要就装配式结构施工过程当中存在的问题和创新进行了分析与探讨。  关键词:装配式结构;施工技术;现状;创新  1 预制装配式结构施工过程中存在
期刊
摘 要:我们都知道,准确的交通信息采集是智能交通系统的基石。如何获得准确、实时的交通信息对ITS的应用效果起着至关重要的作用。而交通信息的采集又分为静态交通信息采集与动态交通信息采集。因此本文将分类介绍这两种交通信息所对应的采集技术,其中着重介绍动态交通信息技术采集,分析它们的优缺点与适用场所,并对交通信息采集技术的未来发展做出合理展望。  关键词:交通信息;采集技术;智能交通系统;动态;静态; 
期刊
摘 要:随着我国经济的发展、社会的进步,电子技术和微电子技术取得了长足的进步和发展,从而促进了机电一体化的发展。在机电一体化的技术构成中,电动机是非常核心的一环,所以,对电动机的运行控制和保护,有利于促进机电一体化走向节能、高效,从而促进工业的发展,促进工业产业结构转型,从而促进经济发展和社会进步。本文本文论述了电动机的各种保护、各种保护间的关系及电动机的常见故障及操作电动机的注意事项。  关键词
期刊
摘 要:随着中国科技的不断进步,生产市场对机械设计制造领域提出了新的的要求。面对严峻的市场挑战,机械设计制造及自动化的发展,应遵寻时代的要求,从内部生产方式进行创新式的发展。摒弃传统机械设计陋习,推动机械设计制造及自动化的进步。本文通过对机械设计制造及自动化的概念、特征进行解析,探究机械设计制造及自动化的发展方向。  关键词:机械设计制造及自动化;发展方向;探究  引言:机械制造行业的发展,推动着
期刊
摘 要:火力发电是我国重要的基础电力供给,由于其廉价以及燃烧发电的特性,导致火力发电不仅是我国大部分地区的电力来源同时也是热能供给来源。因此,锅炉作为火力发电厂最核心的组成部分在火电厂的运行中至关重要。所以,为了保障广大群众的电能、热能供给,发电厂要做好锅炉的日常保养维修工作,另外还要不断创新锅炉设备的检修以及改造方式,保证锅炉稳定高效运行,充分发挥其生产价值。  关键词:锅炉;火电厂;检修;改造
期刊
摘 要:随着人们对空气质量的关注,空气净化器也从专业的消防器材逐渐成为普通家用设备,目前空气净化器可以分为光触媒空气净化器、静电式空气净化器、活性炭技术空气净化器、HEPA过滤式空气净化器、臭氧技术的空气净化器、新风系统和负离子技术空气净化器,高效与智能将是未来空气净化器的发展方向。  关键词:空气质量;净化器;工作原理;发展历史  一、引言  近年来,我国的大气环境日益恶化,尤其是在秋冬季节雾霾
期刊
摘 要:在我国土木项目中混凝土属于十分关键的材料资源,对于整体项目建设来讲质量和强度好坏发挥了至关重要的作用。随着积极创新和发展项目操作技术,需要升级检测强度质量系统,逐步由传统破坏性检测转化为无损检测。评估混凝土强度工作是提升操作水平的关键方法,凭借合理检测,对材料的安全整体把握。  关键词:土木工程;混凝土强度;检测技术  1技术背景  混凝土是建筑中最主要材料,其强度关系到人民财产和生命的安
期刊