基于数据挖掘的分析和研究

来源 :大东方 | 被引量 : 0次 | 上传用户:i4majia
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:数据挖掘已经引起了社会各界特别是信息产业界的极大关注,其主要原因是在统计学和数据库知识高速发展的今天,以前积累了大量数据,迫切需要将这些数据转换成有用的信息和知识。通过数据挖掘技术获取的信息和知识可以广泛用于各个领域,包括商务管理、生产控制、市場分析、工程设计和科学探索等。
  关键词:数据挖掘;直接数据挖掘;间接数据挖掘
  一、数据挖掘的定义
  数据挖掘,数据挖掘的含义。数据挖掘又称为数据库中的知识发现,就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,简单地说,数据挖掘就是从大量数据中提取或“挖掘”知识。数据的分析是数据挖掘的一项技术,数据的分析有频数统计分析、领悟式分析、聚类分析、相关关系分析、人工神经网络原理分析等方法。数据挖掘中聚类分析是其中重要的分析方法之一。数据挖掘是数据库内信息的知识发现,是从数据库的海量资料中提取或挖掘用户需要的知识信息,而这些知识信息有规则、概念、模式和规律等多种表现形式.在数据研究的过程中,聚类分析方法能够有效剔除在分类的过程中所混入的主观因素,准确而客观的将研究对象的信息表现在用户面前,并完成信息内部客观规律的发掘任务。在人工智能领域,习惯上又称为数据库中知识发现(Knowledge Discovery in Database,简称为KDD),也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。换言之,就是从存放在数据库、数据仓库或其他信息库中大量的数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。
  二、数据挖掘的关键步骤
  1.挖掘
  把潜在的不明确数据关系的数据提取并转化为数学问题。这一步的结果只是表明数据之间有关系,但是具体是什么关系仍然不明确。
  2.建模
  把不明确的数据关系通过数学建模过程转化为明显的数据关系,即把数据之间的内在变化规律由数学符号与数学结构表示出来。
  三、数据挖掘分类
  1.直接数据挖掘
  目标是利用可用的数据建立一个模型,这个模型对剩余的数据,即一个特定的变量进行描述。
  2.间接数据挖掘
  目标中没有选出某一具体的变量,而是在所有的变量中建立起某种关系。
  四、数据挖掘技术实现
  在技术上可以根据它的工作过程分为:数据的抽取、数据的存储和管理、数据的展现等关键技术。
  1.数据的抽取
  就是数据进入仓库的入口。由于数据仓库是一个独立的数据环境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入数据仓库。数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监控等几个方面的处理。
  2.数据的存储和管理
  数据仓库的组织管理方式决定了它有别于传统数据库的特性,也决定了其对外部数据的表现形式。数据仓库管理所涉及的数据量比传统事务处理大得多,且随时间的推移而快速累积。在数据仓库的数据存储和管理中需要解决的是如何管理大量的数据、如何并行处理大量的数据、如何优化查询等。
  3.数据的展现
  主要的方式有:查询:实现预定义查询、动态查询、OLAP查询与决策支持智能查询;报表:产生关系数据表格、复杂表格、OLAP表格、报告以及各种综合报表;可视化:用易于理解的点线图、直方图、饼图、网状图、交互式可视化、动态模拟、计算机动画技术表现复杂数据及其相互关系;统计:进行平均值、最大值、最小值、期望、方差、汇总、排序等各种统计分析;挖掘:利用数据挖掘等方法,从数据中得到关于数据关系和模式的识。
  五、数据挖掘与数据仓库融合发展
  数据挖掘和数据仓库的协同工作,一方面可以迎合和简化数据挖掘过程中的重要步骤,提高数据挖掘的效率和能力,确保数据挖掘中数据来源的广泛性和完整性;另一方面,数据挖掘技术已经成为数据仓库应用中极为重要和相对独立的方面和工具。
  数据挖掘和数据仓库是融合与互动发展的,具有广泛的应用空间和丰富的学术价值。简而言之,掌握数据挖掘和数据仓库技术可以使我们从数据库的“奴隶”变成数据库的“主人”。
  六、数据挖掘在各领域中的应用及发展前景
  当前数据挖掘应用主要集中在电信、零售、农业、网络日志、银行、电力、生物、天体、化工、医药等方面。专家也指出,数据挖掘会成为未来十年内重要的技术之一。而数据挖掘,也已经开始成为一门独立的专业学科。
  具体发展趋势和应用方向主要有:对知识发现方法的研究进一步发展,如对Bayes和Boosting方法的研究和提高;商业工具软件不断产生和完善,注重建立解决问题的整体系统。
  数据挖掘的发展应是挖掘工具在先进理论指导下的改进,而就现有情况而言,还有至少二十年的发展空间。
  目前,联机处理技术与数据挖掘是信息系统领域内的研究重点,OLAP作为一种多维分析的工具,可以为用户提供多层面、多角度的逻辑视图,按照用户所提出问题进行假设,分析,并将呈现给用户。
  数据挖掘是在海量的数据集合中寻找模式的决策支持过程,它从大量数据中发现潜在的模式并作出预测性分析,是现有的最新的技术和统计学等成熟技术在特定系统中的具体的应用。
  同时,数据挖掘与OLAP都属于分析型工具,从某种角度上说OLAP联机分析方法也是一种数据挖掘方法。但二者之间有着明显的区别,数据挖掘的分析过程是全自动的,用户可以不必提出确切的问题,只需工具去挖掘隐藏的模式并预测将来的趋势,这样有利于发现未知的事实;而OLAP更多地依靠用户输入问题和假设,由于用户先入为主的参与问题和假设的范围,从而会影响最后的结论。从对数据分析的深度角度来讲,它比较浅显,数据挖掘则可以发现OLAP 所不能发现的更为复杂的信息。
  数据挖掘存在的主要问题是实现很困难,因为数据库或数据仓库中存在大量数据和每个数据又有很多属性,由于挖掘分析过程是全自动的,用户仅仅指定挖掘的任务,而不提供搜索线索,这样导致搜索的空间过大,生成相当多的外模式,其中绝大部分有可能是无意义的是用户不感兴趣的模式。OLAP分析虽然可给用户提供在不同角度、不同抽象级别的视图,但是由于对用户的需求了解调研的不够全面,视图中缺乏所应包含的维度,从不同的视图得到的结果可能并不相同,容易产生错误引导,用户需做大量的数据打捞工作才能够猜出正确的结果。
  实际上数据挖掘的各个方法之间,数据挖掘和联机分析处理之间都有着密不可分的关系,有些是可以由OLAP 来展现或分析的,而数据挖掘的结果又可以指导生成OLAP多维模型。
  从上述分析可以看出,数据挖掘技术由于内在技术方面和适用范围的不同,在实际决策分析中必须协调配合使用才能发挥最好的作用。
  参考文献
  [1]廖芹,郝志峰,陈志宏.数据挖掘与数学建模[M].北京:国防工业出版社,2010.
  [2]希赛IT发展研究中心.SQLSEVER数据库系统开发[M].北京:电子工业出版社,2009.
  [3]廖里 数据挖掘和数据仓库及其在电信业中的应用 2000年 《重庆邮电学院学报》
  [4]石磊 OLAP与数据挖掘一体化模型的分析与讨论 2000年 《小型微型计算机系统》
  [5]竖 苎 数据仓库的建设与数据挖掘技术浅析 2003年第3期《现代信息技术》
  [6]宋中山 数据仓库技术研究与应用 2003年 《计算机工程与应用》
其他文献
摘 要:雨水作为一种有效的资源,大力收集和存储雨水,一方面可减少大量降水对城市的影响,另一方面,又实现了水资源的再次利用。而海绵城市是国务院、党中央大力提倡的一种预防城市内涝、缓解水资源短缺、加强雨洪管理的城市建设新模式,推进海绵城市建设成为“十三五”期间我国城镇化建设的重点。然而,由于这项工作在国内历时短,速度快,建设理念落后、规划碎片化、管理体制欠缺、技术经验不足等问题客观存在。  关键词:海
期刊
摘 要:随着社会的发展,建筑暖通空调工程节能成为了主要的发展趋势,加强节能减排设计的研究具有非常重要的意义,不仅能够解决其中的存在的问题呢,提高暖通空调系统的设计水平,同时也能够在很大程度上降低能源的消耗,因此需要进一步加强对其的研究。基于此本文分析了建筑暖通空调工程的节能减排设计。  关键词:建筑暖通空調工程; 节能减排; 设计  一、我国目前暖通空调设计中存在的问题  (1)设计人员缺乏对暖通
期刊
摘 要:随着我国城市规模的不断扩大,交通行业作为人们日常出行的基本保障,成为了基础建设的重要组成部分。地铁与传统交通工具相比,具备速度快、运客量大、低污染的特点,已经逐渐成为很多城市交通系统的中流砥柱。本文将以地铁通风空调系统为研究对象,分析节能优化的意义,并根据地铁通风空调系统的功能,提出相应的节能对策,希望能够为相关专业提供可以参考的理论依据。  关键词:地铁通风;空调系统;节能优化  一、地
期刊
摘 要:施工技术和现场施工管理对整个工程的质量都起到了决定性的作用。为了保证建筑业的可持续发展就需要不断优化施工技术,做好现场施工管理,促进质量的发展。本文对房建工程的管理与施工技术问题进行了探讨。  关键词:房建工程;施工;技术;管理  一、房建工程管理现状  我国目前的建筑工程中,施工技术管理方面仍处在较为初始的管理状态之中,相当一部分中小型的建筑工程单位并没有形成一个系统完善的技术管理体系,
期刊
摘 要:建筑物自身具有一定的复杂性,它和测量放线的准确度基本上是呈正比的,所以,随着高层建筑的出现,其建筑结构的形式越来越复杂,对于工程测量放线的精度要求也在不断提升,以此符合施工需求,这样一来,也就要求施工企业做好测量放线各个阶段的工作,严格按照相关制度开展施工设计,以此提升房屋建筑测量放线的精度,保证工程质量。  关键词:建筑工程;工程测量;定位放线;误差;控制措施  1 建筑工程测量定位放线
期刊
摘 要:我國污水处理主要面临着高能耗、污泥产量大等难题,厌氧氨氧化处理工艺的研究和应用,为解决这些问题提供了技术支持。本文将对厌氧氨氧化污水处理的两种工艺进行研究,并探讨其工程化应用进展。  关键词:厌氧氨氧化;污水处理工艺;实际应用;研究进展  一、厌氧氨氧化污水处理工艺  (1)亚硝化厌氧氨氧化工艺  厌氧氨氧化是污水处理中最常用的氧氨氧化工艺之一。在废水处理过程中,主要分为两个阶段,两个阶段
期刊
摘 要:为了能有效解决计算机难题,需通过采取相关的途径或方法来解决,比如,构建规范的管理机制,建立高效的沟管理平台,对计算机技术进行集中管理等。我国的计算机科学与技术已成为了社会发展的主要潮流之一,有着广阔的发展前景。  关键词:计算机;科学技术;趋势  随着计算机信息时代的到来,计算机信息已成为获取知识、对外宣传、浏览信息的重要渠道,我国的计算机科学与技术也有了很大的进步。计算机信息技术是一门科
期刊
摘 要:科技在发展,时代在进步,手机在我们日常生活中的功能已经逐渐代替了电脑,它给人们生活、学习及工作中带来了方便。如今手机界面设计的发展趋势就是扁平化设计。扁平化在界面设计中应该如何发展,是我们当前应该研究的课题。  关键词:色彩;扁平化;手机界面  扁平化设计作为一种当下最流行的设计手法,在短短两年多的时间内飞速的发展,扁平化设计几乎已经运用到了各行各业,他的特点就是将一切繁琐的事物简单化,以
期刊
摘 要:机电设备在煤矿的生产系统中占有重要位置,对煤矿生产和运作的各个方面产生着影响。随着现代煤矿企业机械化程度的不断提高,煤矿机电设备的管理问题也成为了当今煤矿企业在发展中面临的问题。本文就煤矿机电设备的管理与矿井安全生产进行了分析,阐述了加强煤矿机电设备管理的策略,旨在促进现代煤矿机电设备管理水平的提高。  关键词:煤矿机电;设备管理;安全运转  随着社会工业的高速发展,社会对煤炭资源的需求量
期刊
摘 要:隧道开挖是一项非常复杂的工程,人们在大量的隧道开挖实践中根据自身的经验和实践结果总结出来一些非常具有代表性的隧道开挖观点,这些观点都是从岩石力学的角度出发所提出来的一些针对不同的岩石种类采用不同的隧道施工的方法。采用喷锚技术、监控测量还有就是岩石力学所共同形成的一个科学有效的隧道开挖施工方法。隧道施工有很多的方法比如说是传统的利用钻爆法开挖还用运用钢木构件支撑的矿山法,采用机械装备碎石工具
期刊