基于XML的工作流模型挖掘

来源 :计算机光盘软件与应用 | 被引量 : 0次 | 上传用户:xm1209xm1028
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:针对工作流模型的XML文档的特殊性,提出了基于XML的工作流模型挖掘算法,该算法综合利用了结构信息与内容信息对XML文档进行分析,并将XML文档的结构与内容进行了量化,用一个矩阵来表示文档,进一步对文档进行综合挖掘,为工作流模型的挖掘提供了一种有效的方法。
  关键词:XML;挖掘;工作流模型
  中图分类号:TP311.52
  工作流是企业可用计算机实现管理的结构化或非结构化业务流程的计算机模型,它的概念起源于生产组织和办公自动化领域,是针对日常工作中具有独立程序的活动而提出的一个概念。不同的研究者和工作流产品供应商从不同的角度给出了工作流的定义,但基本上都认为工作流是经营过程的计算机实现。工作流模型数据通常以XML格式出现,而传统的基于XML只是从结构或内容单方面进行挖掘,但是在流程数据中,文档的结构与内容都是表征流程的重要信息,这就需要一种兼顾文档结构与内容的挖掘方法。XML作为一种新兴的技术,在信息时代快速发展的今天,正在得到越来越广泛的应用,越来越多的数据以XML的格式进行存储和交换,因此,面向XML文档的数据挖掘变得尤为重要。
  1 XML的特点
  XML是Extensible Markup Language的简写,是一种用于标记电子文件使其具有结构性的标识语言。所谓标识,就是为了处理的目的,在数据中加入的附加信息。应用标识法描述的结构化数据的形式语言称为标识语言。一般认为,XML具有如下优点:
  (1)可扩展性:XML提供了一个表示信息的框架。它允许信息提供者根据自己的需求和意愿定义任意的标记,数据经过XML的处理之后,表达方式简单易读,同时也易于由其他应用进行进一步的加工和处理。
  (2)结构性:数据存储格式不受显示格式的制约,一般包括三个要素:数据、结构以及显示方式。XML使用DTD(或者XML Schema)规定一套关于标记符号的语法、语义规则,比较准确地描述文件资料的内容、含义、结构、特征和关系等信息,而把资料的外观表现形式交给样式表处理,这样就把信息的内容和其表现形式合理地隔开,从而大大提高XML信息的可理解性、可交换性和重用性。
  (3)平台独立性:XML使用普通文本,而不是二进制的数据格式,具有跨平台的优点,运用XML可以有效地解决新旧系统平台,不同应用系统平台之间或者不同数据源之间的数据共享与交互问题。
  (4)自描述性:XML以显式语句和隐式嵌套结构描述结构化信息,任何应用都可以方便访问其中的数据并清楚地了解到标记内容的含义,自描述性使其非常适用于不同应用间的数据交换,而且这种交换是不以预先规定一组数据结构定义为前提,因此,具备很强的开放性。
  (5)灵活性:XML文档中,数据、数据结构与文档的表现方式是分离的,它与HTML的组织方式完全不同,结构化的数据通过可扩展的样式表XSL将数据呈现在同的終端设备上,通过使用不同的XSL摸板可以将数据方便地呈现在各种不同系统的浏览器上,而在这些不同的应用上,数据本身是一样的。
  (6)规范、简单性:XML与HTML一样,XML也是源于标准通用标记语言SGML,它保留了SGML的80%的功能,而复杂性只有它的20%,此外,XML文档有一套严谨而简洁的语法结构,这为XML解析器获取文档所含信息提供了前提。
  2 XML文档的挖掘
  对XML的挖掘包括对XML结构上的挖掘和对XML内容上的挖掘两种。
  2.1 XML结构上的挖掘
  XML是半结构化的数据,元素的标记以及它们的嵌套关系表示了XML文档的结构,从半结构的载体中挖掘出XML的结构部分对分析理解XML文档具有重要的意义。XML结构的挖掘关键是对DTD或Schema的挖掘,在实际操作过程中是将每一个XML文档的结构看作是一棵有根、有序的标记树,在此基础上对树的挖掘。
  结构上的挖掘是仅和XML文档结构内部有关,我们也可以靠知识发现得到XML文档内部的结构信息,即文档的类型定义DTD,从而引入对有效的XML文档的分析。有效的XML文档,应该是结构良好的XML文档,该文档中不仅定义了和文档相关的DTD,而且经过验证发现该文档也是完全符合这个DTD规范的。
  通常使用集合论符号来标识XML的内部关系,包括XML的对象用X标识,用D标识XML文档的集合,则有 。W代表结构良好的XML文档,如果D通过了结构上的验证,保证了结构的良好,那么D=W。V用于标识有效的XML文档, 。同时,可以定义出结构不良好的XML文档对象,也就是 。
  XML的结构挖掘又可以进一步分为结构内挖掘和结构间挖掘。
  2.2 结构内挖掘
  结构内挖掘是对一个XML文档内的结构进行挖掘以发现隐藏在结构内的知识,也就是对DTD或Schema的挖掘,这里仅以DTD为例进行说明。挖掘的结果可以用来:
  分类:可以根据预定义的分类对新XML文档进行归类。DTD可以用来对XML文档的类别进行描述。分类过程先收集DTD文档作为训练集,然后根据这个训练集对新文档进行分类。这一任务在有效的XML文档中比较容易实现,因为新文档的DTD已经定义了,可以通过比较分类DTD与新DTD来进行。
  对任何一个定义有关联的DTD的XML文档来说,它应该首先进行有效性验证,即验证文档是否和DTD中的定义一致。区分XML文档是有效还是仅仅结构良好,这一点非常重要。对于那些仅仅结构良好的XML来说,可以根据分类DTD来解析文档。一个成功地被解析的文档被作为相关DTD的一个实例而进行分类。对于结构不好的XML来说,在一个错误发生前,如果有字够的文档被解析,也可以用来进行分类,然后分好的类别可以用来发现潜在的有价值的信息。
  聚类:被用来识别各种XML文档间的相似性。聚类算法收集DTD并根据自身的相似性进行组合,这些相似性然后被用来生成新DTD,通常来说,新DTD是DTD训练集的超类。   关联规则挖掘:被用来描述共同在XML文档中出现的标记间的关系。XML文档可以很自然地分析为树形结构,它的结构DTD也是树形结构的。把树形结构的XML结构转化为以“事务”为单位的对象,就可以利用以有的数据挖掘关联规则方法挖掘出一些有意义的规则,如可以生成“如果包含一个A则80%包含一个B”等。
  2.3 结构间挖掘
  结构间挖掘是挖掘XML文档之间的结构中的知识,这些知识包括主题、组织方式以及节点之间的关系。它同样可以用于:
  分类:被应用到命名空间和URI,根据关联的DTD,用来对新的XML文档进行分类。
  聚类:这种方法可以用来进行不同XML文档之间的相似度严整。通过聚类算法把一个DTD的集合根据相互相似度的特征聚合,再在这个通过相似度聚合子集的基础上产生新的泛化的DTD,这个新的DTD和这个DTD聚合子集有着层次关系,是这个DTD聚合子集的父类,也就是对聚类子集中所有DTD的泛化。
  2.4 XML内容上的挖掘
  XML内容的挖掘即是对标记的值的挖掘。它也有两种形式的挖掘,单个XML文档的挖掘和群组XML文档的挖掘。
  2.5 单个XML文档的挖掘
  单个XML文档本身就是包含信息极其丰富的挖掘对象,可以被看作为一个数据库,因此可以在单个的XML文档中进行知识提取,如文档内部内容的分类、关联规则分析、聚类挖掘等。但是,正如前面所提到的,尽管作为信息主要载体的XML提供了一种方便地标识和交换信息的方法,但它可能并不是一个很好的可以从中自动抽取与数据驱动的服务或者应用程序相关的信息的结构,它的结构使它很难用系统的方法来利用信息。
  2.6 群组XML文档的挖掘
  群组XML文档的挖掘是在一組XML文档上进行的,而且挖掘的对象与文档标记无关,只与标记的值有关。此时,XML文档标记的作用已经退化,而标记的值在被提取出来之后,组成的内容的集合和文本基本等价。因此,在群组XML文档上进行的内容挖掘也就退化为一般的文本挖掘,使用一般的分类、聚类、关联规则分析等方法即可。
  参考文献:
  [1]Agrawal R,Gunopulos D,Leymann F.Mining process modelsfrom workflow logs[C]∥Proceedings of the Sixth International Conference on Extending Database Technology.[s.l.]:[s.n.],1998:469-483.
  [2]van der Aalst W M P,Weijters T,Maruster L.Workflow Mining:Discover-ing Process Models from Event Logs[J].IEEE Transactions on Knowledge and Data Engineering,2004(09):1128-1142.
  [3]Herbst J,Karagiannis D.Workflow mining with InWoLve[J].Computers in Industry,2004(53):245-264.
  [4]范玉顺.工作流管理技术基础—实现企业经营过程重组与经营过程自动化的核心技术[M].北京:清华大学出版社,2001.
  作者简介:吕克(1963.12-),男,江苏扬州人,现代教育技术管理科科长,研究方向:教育技术研究。
  作者单位:扬州大学教务处,江苏扬州 225009
其他文献
目前,移动开发已经成为开发者社区最为引人注目的新技术。移动互联网蕴藏的巨大商机以及嵌入式开发的神秘色彩,使得越来越多的程序员开始学习和研究移动开发技术。J2ME、Symbia
【摘 要】新课标要求学生自主探索、合作交流、实践创新,做数学学习的主人。面对这一新的数学学习方式,我们教师要从根本上转变观念,摆脱传统教学模式的束缚,在培养学生自主学习的能力上动脑筋、下功夫,让学生热爱数学、探索数学,进而主动的去钻研、理解、想象,使他们在浓厚的兴趣中认识新知,掌握技巧。  【关键词】初中数学;自主学习能力;培养  【中图分类号】G220.46 【文献标识码】A  【文章编号】20
摘 要:本文主要分析了linux下防火墙netfilter/iptables的结构和模块属性,主要解决系统在多线负载均衡和自己开发的防火墙不能共用mark时,提供了一种扩展模块应用。通过对netfilter/iptables程序结构的分析,期待解决Linux中防火墙系统在实际生活中的应用。  关键词:Netfilter/iptables结构;扩展match;Netfilter/iptables模块
【摘 要】随着新课改的不断推广,中职教师更应该积极地探索创新教学方法,将更多的教学方法应用到实际课程教学中。首先简单叙述了《电子技术基础与技能》在教学中存在的不足,进而深入分析实现《电子技术基础与技能》一體化教学的对策。通过对一体化教学展开的讨论,期望能够为中职教学教育方法改革起到推动和参考的作用。  【关键词】职业教育;电子技术基础与技能;教学改革  【中图分类号】G712 【文献标识码】A  
【摘 要】在强调课堂教学的过程性,突出教学个性化建构的成分,追求学生的生命成长,开放的、互动的、动态的、多元的教学课堂里,核心素养视域下的初中语文生长式课堂的建构是一个良好的尝试和优化的成果。  【关键词】核心素养;初中语文;生长教学;课堂建构  【中图分类号】G623.2 【文献标识码】A  【文章编号】2095-3089(2019)07-0117-01  初中语文学习是小学“语言建构与运用、“
随着国民经济的飞速发展,以及科学技术的不断进步,现今出现火灾的频率和出现火灾的原因也越来越是多样化,火灾不但会造成严重的人员的伤亡,同时还会引起国家的经济损失。火灾的发
<正>~~
期刊
一、实施准备首先,我确定上课的班级是2017级烹饪1班,烹饪专业的培养目标是掌握基本的文化基础知识、烹饪知识和技能,具备良好的职业素养和职业道德,为学生创业和就业打下扎
【摘 要】初中音乐这门学科一直以来不被学生和家长所重视,被视为“副科”,有了这个认识作向导,学生学起来往往兴致不高。有时即使音乐教师满怀兴致地走進课堂,对重点、难点进行不厌其烦地讲解,而学生听得却是云里雾里,昏昏欲睡。那么,如何才能让初中音乐课堂教学“活”起来呢?如何才能让初中音乐注入时代的活力,让初中音乐也有现代气息呢?如何才能让初中音乐走进学生的生活,让学生在现实生活中体验初中音乐呢?经过教学
五一节过后,国内棉粕市场延续了节前的低迷行情,据调查,各在棉粕价格较节前仍出现明显波动,但国内油厂抬高棉粕价格的意愿仍较强烈,目前山东地区蛋白含量为40%的棉粒出厂价格已经