基于云计算的WEB数据挖掘技术研究

来源 :硅谷 | 被引量 : 0次 | 上传用户:shinny321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要 随着云计算的快速兴起与发展,在数据存储与商业化应用方面将得到显著提升,这是云计算技术的一大重要价值所在。本文在对云计算分析背景下探讨WEB数据挖掘的相关技术。
  关键词 云计算;WEB;数据挖掘
  中图分类号:TP391 文献标识码:A 文章编号:1671-7597(2013)14-0064-01
  并行计算技术、软件技术以及网络技术等多元技术发展后,出现了云计算技术。云计算商业价值以及科研价值都获得了肯定,IBM、Google等公司都非常重视云计算技术。随着云计算的快速兴起与发展,在数据存储与商业化应用方面将得到显著提升,这也是云计算技术的一大重要价值所在。Web数据挖掘凸显出极大的应用价值。本文分析了云计算框架下的Web数据挖掘算法。
  1 云计算的关键技术
  与一般计算不同的是,作为一种超级计算,云计算的核心信息是数据,且属于密集型。在数据存储、数据管理以及编程模式等多方面凸显出个性化的特点。本章所介绍的有关云计算的数据存储技术、虚拟化技术、数据管理技术以及编程模式。
  1.1 大量分布式存储技术
  在云计算技术中,其关键的分布式存储具有诸多优点:有精确性、高效率以及实用性等。采用冗余存储的方式能够保证数据存储的精确性。而硬件上所存在的缺陷可通过适当的软件来完善,因此拥有了大量的分布式存储技术,经济性与实用性等特性比较地突出。
  1.2 数据管理技术
  云计算系统含有数项服务内容,诸如分析大数据集的特点并及时地采取相应的处理和分析的方式,从而凸显出运行的高效性优点。因而,全面高效地管理大数据集是云计算数据管理技术中不可或缺的一项重要内容。在数据管理下,还可以迅捷地搜索到预定的数据。
  1.3 虚拟化技术
  作为一类分配计算资源的途径,虚拟化技术也是云计算中的重要技术。该技术把不同级别的应用系统,诸如硬件、软件、数据、网络以及存储等系统独立化,肢解数据中心、服务器、存储、网络、数据以及应用物理设施内部的分工状态,达到动态构建体系结构的目的,完成集中管理以及共时使用的物理资源以及虚拟资源的任务。虚拟化技术强化了结构体系的弹性以及灵活性,减少了开支,完善服务,尽可能都规避管理风险。
  1.4 并行编程模式
  云计算的编程模型的确立必须要关注到后台的保障性作用,在具体的执行过程中要确保其合理的进度。这样才能够使得云计算资源得到最大限度地使用,用户也能够更为便捷地使用该项资源。
  云计算所采用的模式是Map-Reduce编程。最初的一个任务会形成“树枝状”的结构,其下的子任务会通过Map以及Reduce等流程来加以执行,从而保证任务能够及时准确地完成。
  2 Web数据挖掘
  Web数据挖掘是由Web、数据挖掘、计算机语言学以及信息学等数个学科构建而成。数据挖掘技术以及Web通过一定的途径得到了有机的统一整合之后,显现出综合性的特性。在对挖掘对象展开比较全面分析的基础上,Web数据挖掘又被细化成包括内容、结构以及使用等方面的挖掘方面。其中,内容挖掘的内涵界定为:经由人工化的组建模式,在Web环境下从相关的文件夹中提取使用者所需信息;结构挖掘的内涵界定为:经由人工化方式下,针对多项结构进行挖掘,通过多种途径方式从中提取出使用者所需信息;使用挖掘的内涵界定为:将挖掘的对象聚焦于日志文件以及内在所包含的数据内容作为突破口,发掘本站点的浏览人及其用户数量。
  3 基于云计算的数据挖掘技术
  当下的数据挖掘技术已广泛地运用于网络安全、搜索引擎、电子商务以及信息通信等诸多方面,效果也让人满意。其中,下面的几类程序应用的范围更为广泛:基础设施也就是服务(IaaS)型的计算密集型并行处理应用程序、平台也就是服务(PaaS)型的网络业务以及软件应用即服务(SaaS)型的Web2.0应用程序。与以前数据挖掘技术相同的是,基于云计算的数据挖掘也要做好有关数据的预处理、挖掘以及评估结果模式等多项工作。点击流决定了大多数的网站数据格式,因此,基于云计算的数据挖掘技术方式和以往的数据库格式相异。
  3.1 数据的收集和处理
  该环节要采用决策树区工具来区分用户访问数据以及Web机器人访问数据。同时,在该环境下,基于网络的大规模数据的展开过滤、转换与整合等工作内容都将得到解决,且还能将对应的数据转换为半结构化XML文件,然后将其保存至分布式文件体系内。
  Google 公司最近推出了Map-Reduce新型并行编程。它把并行化、容错、数据布局、负载均衡等多项功能集中于库中,并把系统操作数据的流程总结成2个阶段:Map 阶段以及Reduce 阶段。运用Map-Reduce途径来搜集数据比较地广泛,但开发工具Hadoop本身并不完备,通过窗口技术可以把数据加以分离,且将满足条件的动态数据进行连续性的静态状况呈现于窗口内,因此,抽样、直方图以及小波变换或哈希等途径可以及时地保存数据结构及其数据信息内容。系统本身并不具备保存扫描、搜集数据的功能,却算法也并不复杂,同时,应用程序又牵涉到利用历史数据的功能,从而弱化了整个系统的功能。目前有数个研究机构构建相关系统项目,包括STREAM,TelegraphCQ以及Aurora等,但影响并不明显。
  3.2 数据存储
  基于云技术进行数据挖掘,要关注到搜集、处理数据时的高效性,同时还要注意如果节点失效,还应该注意迁移计算以及存储的数据内容。因此,还要借助于冗余存储的方法来确保数据储存的稳定性与可靠性。
  在云计算数据存储应用领域中,非开源系统最为著名的当属Google公司旗下的GFS,开源系统最为著名的则是Hadoop开发的HDFS,这两大系统现已得到极为广泛的发展与应用。随着技术的深化,今后在多个领域中的应用也将得到进一步提升,尤其在对数据存储和计算的迁移工作中,将打破当前效率低下的困境,使得数据处理效率得到显著提升,并促进其商业化应用。
  4 结束语
  在云计算背景下的WEB数据挖掘已然成为当前国内外计算机领域的热门课题,其研究成果的应用范围极其广泛,具有很高的现实价值。
  参考文献
  [1]王鹏.走进云计算[M].北京:人民邮电出版社,2009(6):182.
  [2]陈修宽.Web数据挖掘综述[J].山东轻工业学院学报,2009,23(3):23-8.
  [3]刘丽珍.网络结构挖掘的关键分析[J].计算机应用研究,2003(5):116-118.
  [4]赵春艳.云环境下作业调度算法研究与实现[D].北京.北京交通大学硕士论文,2009.
  [5]张为民,唐剑锋,罗治国,钱岭.云计算深刻改变未来[M].北京:科学出版社,2010.
其他文献
摘 要 在一个软件系统开发项目中,通常存在多个模块,模块之间相互关联,协同作用,关系复杂,若将各个模块之间的关系实现运行时匹配,这样就可以降低各模块之间的耦合度,使得整个软件系统更加健壮、稳定,即使某个模块产生异常,其影响面也可降到最低。  关键词 解耦合;依赖注入;应用系统  中图分类号:TP311 文献标识码:A 文章编号:1671-7597(2013)14-0055-01  在一个软件系统开
摘 要 对推力、角接触关节轴承外圈内球面成形磨削过程中套圈的加工形态和加工角度进行分析,认为砂轮中心轴线相对工件的中心轴线旋转一定角度的加工形态才是合理的加工形态,最佳的加工角度应使套圈所受的扭矩为零,并据此确定砂轮的尺寸参数,能有效地提高砂轮的利用率。  关键词 推力、角接触关节轴承;加工形态;回转角;砂轮尺寸;利用率  中图分类号:TH133 文献标识码:A 文章编号:1671-7597(20
摘 要 由于二次侧泥渣沉积对蒸汽发生器可能造成的后果非常严重,因此对蒸汽发生器二次侧进行适时泥渣清洗是十分必要和必须的。本文对管板泥渣水力冲洗技术进行了介绍,对核动力运行研究所在泥渣冲洗技术方面的研究工作进行了说明和总结。  关键词 蒸汽发生器;泥渣;冲洗  中图分类号:TM621 文献标识码:A 文章编号:1671-7597(2013)14-0058-02  国内外核电站运行经验表明,在正常运行
摘 要 网络规模的扩大使多种安全产品问世。本文基于策略基础,引入策略结构,建立框架模型,在复杂的网络环境下,为授权用户提供可方便获取资源且满足安全需求的解决方案。  关键词 策略;网络管理;模型  中图分类号:TP393 文献标识码:A 文章编号:1671-7597(2013)14-0060-01  基于策略的网络管理技术是为了实现网络QoS的简化而使用独立特定设备之外的相关管理工作。因特网工程任
摘 要 为解决传统的销售场景中,销售人员的用户体验不好,销售周期长,安全性难以保证,工作效率不高的问题,本文提出基于Win8平台移动销售助手的安全架构的解决方案。该方案可以支持移动销售助手的功能需求,满足了在移动环境下应用对服务器数据的安全访问和存储。然后,结合登录,查询账户信息和保存联系人的例子给出了一个具体实现。最后,对此安全架构在对应用的功能性,重用性,易用性和性能影响方面做出了总结。  关
摘 要 在建筑使用的过程中,建筑安全性也成为人们最为关注的问题。在多种多样的消防技术中,水喷雾系统是使用比较广泛的一种技术。水喷雾灭火系统不仅使灭火的方式更加丰富,还能够提高建筑的安全性。但在水喷雾技术使用的过程中,仍然存在部分因素制约其发展,这就需要消防系统的研究人员加大研究力度,采用最科学的方式来提高水喷雾灭火系统的功能。  关键词 雨淋阀组;水喷雾;灭火系统;电气控制  中图分类号:TU97
我们知道,孕期、哺乳期、婴幼儿期等特殊时期,用药需要特别谨慎,但具体该遵循什么法则,怎么去规避药物带来的危险,光凭仔细看说明书是远远不够的。我们在本期健康话题《特殊时期,“药”安全》里为关心这些问题的读者带来了具有操作性的指南,希望能让你在遇到这些问题的时候能够心里有底,吃药不慌。  但在卷首,我们为你带来的是另一个值得思考的跟药有关的话题——身体排出的药都去哪了?  你知道吗?水体中的药物污染8
摘 要 本文结合单片80C51与SPWM的理论知识,以80C51产生的智能控制信号为技术手段对控制SPWM的新方法进行分析与研究。  关键词 电力拖动;SPWM;Intel 80C51单片机  中图分类号:TG502 文献标识码:A 文章编号:1671-7597(2013)14-0066-01  随着现代技术的不断发展与进步,在现代的大型重工企业的机床生产过程中,大多使用的是比较先进的多电机拖动系