实驰Web数据挖掘的问题及解决方法

来源 :现代企业 | 被引量 : 0次 | 上传用户:wyb112
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  Web上有海量的数据,用传统的数据分析方法已无法有效地获取隐藏在海量數据中的有用信息或知识,怎样对这些数据进行复杂的应用是目前信息处理技术研究的热点之一,Web数据挖掘技术以其能在Web环境下从大量的数据中发现隐含的规律性内容,解决数据的应用质量问题而倍受青睐。对于电子商务来说,Web数据挖掘就是要通过对电子商务网站上异构的海量客户数据进行深层次分析,了解网络客户详细的商务行为细节,从中获取对商业决策有价值的信息。Web数据挖掘常用的技术有路径分析、关联规则、序列模式、聚类与分类技术等。对电子商务系统积累的不同来源、不同组织结构的海量数据实施Web挖掘的关键问题是:首先必须屏蔽Web数据源的异构性,其次需要有较完善的半结构化模式抽取技术支持。
  
  一、用XML据模型屏蔽Web数据源的异构性
  
  1. 用XML屏蔽Web数据源异构性的可行性。目前电子商务系统服务器端主要是XML、HTML和关系数据等数据类型。从信息集成角度来看,关系数据模型过于严谨,无法有效地表示半结构化和非结构化数据;HTML对文档的要求也过于完整,且不能定义数据的层次,没有提供编程接口解析它所携带的数据,无法真正实现各种应用程序、数据库及操作系统间的数据交互。XML与关系数据模型和HTML相比,可以表示更多样化的数据格式,能够使不同来源的结构化、非结构化数据很容易地进行合并。采用XML集成多个不同数据源的信息,只需要把来自不同数据源的信息先转成XML文档,然后再处理经过解析器解析的数据流即可。任何应用程序只需要知道两种格式,即本身的和XML的,就可以通过XML为中介实现与其他应用程序的信息交换。
  因此,在Web挖掘的数据预处理阶段,可以用XML作为异构数据源集成应用的中间数据模型来屏蔽Web数据源的异构性。
  2. HTML文档向XML文档转换的实现。目前已有许多由研究机构和企业开发出的将HTML文档转换为XML文档的软件产品,其中有一些正逐步走向实用。如HTML Tidy就是一个能够出色地完成HTML代码清理转换任务的工具,它由Dave Raggett开发,可以在VisualC 6.0环境中以HTML文档名称为参数执行如下指令被调用来完成转换:
  WinExec(“TIDY -o output.xhtml -i test.html”, SW ̄HIDE)
  其中output. xhtml为转换结果文件,test. html为待转换的HTML文档名称。
  实际应用中,用户可以采用HTML Tidy先将HTML文档转换为XHTML文档。XHTML文档为XML的子集,它结合了部分XML的强大功能及大多数HTML的简单特性,符合XML规范,实施Web数据挖掘时可以直接从XHTML文档上进行数据抽取。
  3. 关系数据向XML数据转换的实现。关系数据是完全结构化数据,其结构相对较简单,可以生成具有不同语义的信息视图,并能很自然地用XML形式的数据加以表示。目前很多著名的关系数据库管理系统如Microsoft SQL Server、 IBM DB2 EXTENDER、 ORACLE 91、 SYBASE等都支持对XML数据的存储管理。因此,实际应用中可以利用SQL server 2000 DBMS具有的能从关系数据中产生XML文档,并在关系数据库表中存储XML文档的功能,在分析数据库所包含的表间及表中列间关系的基础上,先建立关系数据库结构和XML文档结构之间的映射关系,再扫描数据库,然后输出XML文档。
  
  二、基于XML的数据查询与抽取的技术实现
  
  由于Web数据的大量信息都与抽取无关,由HTML文档和关系数据转换而来的XML文档以及Web上原有的XML文档中都包含大量的冗余信息,所以需要过滤清洗掉XML文档中的无关数据,并根据一定的规则进行数据抽取,以统一的XML数据模式描述来自不同数据源的数据,形成XML数据集,为下一步数据挖掘算法的实施作好准备。
  1. 利用XSL过滤清洗XML文档中的无关数据。XSL是一种用于以可读格式呈现XML数据的可扩展样式表语言(Extensible Stylesheet Language),能够对XML树进行添加和删除元素、查找或选择特定元素等操作。因此,可以利用XSL来处理XML结构的文档,以检索抽取适当的数据。这一抽取过程可通过查找XML数据内的引用点、将数据重新映射成XML、合并结果并处理数据等几个步骤完成。
  2. 基于XML的数据查询。由于采用XML作为中间数据模型,因此系统的查询处理可采用下面的逻辑表示形式:
  Head:一Body
  Head→Unit
  Body→Unitl, …, Unitn(Condition)?
  Unit→<Label Value>
  Label→string|variable
  Value→variable|{Unit }
  condition→(Predicate)
  Head表示杏询的结果,Body表示查询处理;?表示任选,+表示一个或多个;Predicate是条件表达式;Label对应XML的tag,Value对应tag中的值;连接操作均隐含在有相同Label的unit之间。这种逻辑表示有利于表示XML的层次和嵌套结构。(本文受浙江万里学院2007年科研项目“基于Web访问信息挖掘的商业智能发现研究”资助)
  (作者单位:浙江万里学院商学院)
其他文献
  
2005年二季度我国钢材价格大幅下跌,行业景气度见顶回落,许多行业分析人士对我国钢铁业的发展前景纷纷看淡。但是从中国经济发展的大背景来看,我国的钢铁行业在未来一个较长的时期内仍然面临着良好的发展机遇,总体上仍将处于不断增长的态势之中。目前我国A股市场许多绩优钢铁股价值被严重低估,具备长期投资价值。    一、2005年二季度我国钢铁行业景气度见顶回落,许多行业分析人士对我国钢铁行业的发展前景纷纷看
8月底,我去陕西神木县釆访神华神东电力有限责任公司,令人神往的是神木县这个全国经济强县和雄奇文化历史缘故,但更因为是神东电力公司近年来创造的突出业绩。  神木古称麟州,历史上曾是边关要塞,史称“南卫关中,北屏河套,左扼晋阳之险,右持灵夏之冲”。名扬青史的杨继业父子曾驻守于此,抗击侵略,雄踞一方,英雄业绩,流传千古。北宋著名的文学家范仲庵曾巡边到此,留下了《渔家傲·麟州秋词》等著名诗篇。神木也曾是革
农民张大伯家的蔬菜大棚在一个烈日炎炎的中午着火了,棚内包括灌溉设施在内的所有东西都被烧了个精光。张大伯认为一定是有人故意纵火,于是报了警。  李警官在现场仔细观察了一番后,问道:“昨晚的雷阵雨下得挺大的,地面现在还是湿的,如果有人经过这里肯定会有脚印。可是我刚才并没有发现可疑的脚印,所以我认为不太可能是人为纵火。”  “啊?那到底是怎么回事呢?”张大伯迷惑不解。  “我问你,昨晚这里下过雨,对吧?
你猜我是誰
期刊
那咱們换另一家去洗澡吧。
大小铁球会同时落地嗎
期刊
智力解卡牌
在所有权与控制权分离的现代公司治理结构中,董事高管人员的地位十分突出,对董事高管人员约束机制建设就成为各国公司法制建设的重要内容但是由于多种原因,我国公司立法对董事高管人员本身作为商人的角色定位不准,对董事高管人员的制约机制存在倚重公司法责任的传统基于利益相关者理论,并以公司参与者间的利益平衡保护为视角,就完善我国公司董事高管人员对第三人责任制度进行分析并提出具体建议,以期激活对董事高管人员职权行
小猕猴神探在那个与众不同的脸谱中找到了答案,原来一个地下组织胁迫企业家前往一个危险的地下溶洞进行寻宝勘探。当神探赶到地下溶洞時,寻宝队伍正陷入地下树藤迷宫中无法走出来。