云环境下的数据挖掘技术研究

来源 :华北电力大学 | 被引量 : 0次 | 上传用户:icetqq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和信息技术的快速发展,企业在运营过程中会产生大规模的数据,并且数据已成为重要的资产。但这些大规模数据呈现的是不完全的、有噪声的、模糊的、随机的状态,具有规模庞大、种类多样、蕴涵价值大、增长速度快的特点。面对这些大规模的数据,如何从中挖掘出有价值的信息,并为企业决策提供支持是当今业界关注的焦点。云计算是一种以虚拟化技术为基础,按需提供可扩展的存储能力和计算能力,这使得大数据有效处理成为了可能。为此,有必要对云环境下的数据挖掘系统的关键技术进行深入研究。  本文系统地分析研究了Hadoop云计算技术、典型数据挖掘系统的理论知识、数据挖掘的过程。通过分析研究分布式文件系统和并行计算框架的工作原理和运行机制,将Hadoop云技术与数据挖掘技术进行融合,分别对数据挖掘算法中的聚类K-Means算法和关联Apriori算法在云环境下的并行化改造设计。以用电营销系统数据为背景设计了一种云环境下的数据挖掘系统,对系统的需求分析,概要设计和主要的功能模块进行了详细设计。搭建了Hadoop云环境,实现了云环境下的数据挖掘系统的主要模块,对并行化改造的算法进行了实现分析,表明该系统能够根据确定的数据挖掘业务目标,挖掘出有价值的结果模型且挖掘效率较高,为用电营销决策提供一定的支持。
其他文献
随着我国的改革开放的深入,国内电信市场竞争日益剧烈,虽然电信运营企业在各个业务领域内已初步形成多元化的竞争局面,同时,国外的电信公司也即将会进入中国市场。而怎样面对电信
纸张计数是工业生产中很常见的操作。传统的纸张计数是由专门的计数装置来完成,其成本高、体积大、易于产生错误的缺点很明显,迫切需要改进。本论文从纹理图像分析的角度来进
当前信息技术的发展和应用趋势呈现出两个主要特征:一方面,系统功能性的不断增强使得计算环境正在变得日趋复杂;另一方面,无处不在的计算使得今天的用户日趋大众化。今天企事
随着数据处理领域研究的不断深入和研究内容的不断发展,研究者们逐步发现数据需要以流的形式处理。这些数据传输速度快、规模大、传输持续时间长,并且只能被有限的读取几次。
矿井水害一直是威胁我国煤矿安全生产的重大隐患,对矿井水文状态进行实时监测和及时发布,是提高煤矿安全生产的有效手段。本文根据计算机软、硬件和网络应用快速发展的现状和
无线网络MAC协议可以协调用户公平的使用无线信道资源,实现数据的可靠传输,能够很大程度上影响无线网络的性能。传统无线网络MAC协议基本上都是单信道协议,这种技术会导致整
在石油钻井过程中,井壁失稳问题是一个需要解决的重大技术难题。对于石油钻井工程来说,井壁失稳会引起井壁坍塌,甚至导致井眼报废;井壁失稳还会影响固井质量以及油井生产,造成严重
SOA(Service Oriented Architecture,面向服务的架构)作为一种新的软件架构,已经逐渐显示出其优越性。它主要是在多种现有技术的基础之上构建一个灵活并且可扩展的框架,这些
路径测试数据生成是软件测试领域研究的热点问题之一。自动生成路径测试数据对提高路径测试的效率、降低软件测试成本、保证软件质量有着重要的意义。本文采用粒子群优化算法
随着数据存储的高速增长,传统的数据库已经无法满足人们处理大规模数据的需求,有关海量数据的处理与存储成为当前的研究热点。Hadoop文件系统HDFS成为研究云存储应用的参考模