基于XML的Web数据挖掘研究

来源 :大连海事大学 | 被引量 : 3次 | 上传用户:wanglin0824
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的高速发展,他已经成为最密集、最丰富的信息来源。在这些海量数据中蕴藏着怎样的信息,如何找到用户感兴趣的信息逐渐成为人们关注的焦点。作为从Web文档和Web活动中抽取潜在的、有用的模式和隐藏信息的有效技术,Web数据挖掘悄然兴起,备受关注。由于XML,具有可扩展性、结构化和有效性等特性,建立了一种传输结构化数据的方法,使用户能够对Web信息实施精确查询与模型抽取,因此将XML与Web数据挖掘相结合进行研究逐渐成为了数据挖掘领域内的一个新热点。 本文从XML与Web数据挖掘两项技术相结合入手进行研究,提出了一个基于XML的Web数据挖掘系统模型,详细设计了基于XML的Web网页内容挖掘子系统,并针对XML在该子系统中的具体应用展开研究,对该系统的具体环节提出用XML技术来解决的途径。 本文研究和探讨了使用XML作为数据交换格式对Web上的数据进行挖掘。在数据预处理的过程中,设计并实现了HTML-XML的转换模型。该模型是一种自动的通用的转换模型,突破了以往的转换模型需要人工参与或只能针对某一领域的特定信息进行转换的不足,能有效的将HTML,Web页转换为XML文档。 Web上的数据以多种形式存在,被称之为半结构化的数据。本文重点研究了针对半结构化数据的关联规则挖掘问题。传统的关联规则挖掘问题可以分解为两个子问题:频繁相集挖掘以及由频繁相集产生强关联规则。而频繁相集挖掘是基于结构化数据的,无法直接应用到半结构化的数据上。本文通过对半结构化数据的数据模型进行挖掘,也就是频繁子树的挖掘,实现了关联规则的知识发现。在频繁子树的挖掘过程中,本文对经典的Tree。Miner算法进行了改进,实验结果表明改进后的算法由于进行了有效的剪枝,减少了计算次数,从而减少了运行时间。
其他文献
随着数字多媒体技术和网络技术的快速发展,对图像,视频和音频等数字多媒体数据的保护也变得越来越重要.而传统的加密算法只能保护传输中的内容,一旦内容被解密就不再有保护作用了.近些年来,作为一种密码学的替代技术或补充技术,数字水印技术在国内外获得了广泛的研究,它通过把特定信息(即水印)嵌入媒体内容,能在媒体内容被解密后继续对其进行保护.目前,数字水印已经在广播监视、所有者鉴别、所有权验证、操作跟踪、内容
矮塔斜拉桥也称部分斜拉桥,它是指桥塔的高度介于连续梁与斜拉桥之间的一种新桥型,矮塔斜拉桥的主跨与塔高的比值在9.0左右;矮塔斜拉桥主梁受弯、受剪和拉索受拉,斜拉索对主梁起到体外加劲的作用。由于近年来我国交通事业建设取得了举世瞩目的成就,矮塔斜拉桥作为一种造型美观的桥梁形式,也获得了很大发展,同时,对于矮塔斜拉桥的设计、施工和监测工作也提出了更高的要求,施工控制作为矮塔斜拉桥施工过程中的重要环节,对
本文分别通过阴离子路径和电中性路径合成了具有大比表面积和窄孔径分布的介孔Al2O3(m-Al2O3)载体,采用浸渍法和研磨法制备了介孔Al2O3负载KF新型固体碱催化剂(KF/m-Al2O3)。对制备的m-Al2O3及KF/m-Al2O3催化剂采用XRD、FTIR、TEM、N-吸附法及激光粒度分析法等实验手段进行了表征。结果表明,通过电中性路径制备的m-Al2O3具有虫孔状孔道结构,比表面积达37
近年来,橄榄石型结构的磷酸铁锂(LiFeP04)由于原料来源广泛、价格便宜、环境友好,用作正极材料时具有热稳定性好、循环性能优良等突出特点,成为最有前途的正极材料之一.但是,IJFeP04材料非常低的电导率成为其进一步应用的障碍.本文针对这个问题,系统地研究了合成温度、碳包覆、金属离子体相掺杂对正极材料IJFeP04结构和性能的影响,从而寻找出提高材料电导率的途径.研究表明,采用高温固相法合成出正
二氧化硫是当前最严重的大气污染物之一,其处理工艺已成为一个世界性的重要研究课题.目前的湿法脱硫工艺存在二次污染弊端,采用直接催化还原SO是公认的绿色处理工艺.研究催化CO还原SO为单质硫的催化剂及反应机理,同时探讨催化剂的应用环境,成为本实验的研究重点:1)烟道气中含有大于10﹪的CO,它在120-180nm真空紫外波段对光有较强吸收且选择激发.研究并标定了产生109nm、120nm、149nm、
学位
随着城市化和工业化程度的不断提高以及化肥和农药的广泛使用,氮、磷等营养物质引起的水体富营养化的问题日益突出.水体富营养化引起水中藻类的过量繁殖,降低了水的透明度,使水带有异味,造成水中溶解氧降低.某些藻类产生毒素危害水生生物,影响人类健康,破坏了水生生态环境.1996年颁布实施的国家《污水综合排放标准》中明确规定了氮磷的排放标准,要达到这些排放标准,选择适宜的脱氮除磷技术在污水处理中变得日益重要.
学位
本文通过分析罗家集工业区近五年的气象资料,得到工业区的大气污染气象学特征,包括风向风速等近地面风场特征,污染系数,大气稳定度分布及出现频率,风向、风速、大气稳定度联合频率,风速廓线及风切变指数等。再根据罗家集工业区环境空气质量功能区的划分结果,结合污染物现状监测及罗家集工业区总体规划,应用国标《制定地方大气污染物排放标准的技术方法GB/T13201-91》中规定的目前国内广泛采用的以箱模型为基本模
本文以难生物降解的邻氯苯酚作为目标污染物,125W高压汞灯作为紫外光源,利用自制光催化反应器,系统地研究了光催化反应中催化剂TiO2浓度、pH值、邻氯苯酚初始浓度等关键因素对反应的影响,确定了最佳的反应条件;对邻氯苯酚光催化降解反应过程中生成的中间产物,通过气相色谱-质谱联用方法进行了定性分析,进而探讨了邻氯苯酚光催化降解的反应机理途径;考察了悬浮相TiO2光催化氧化邻氯苯酚的反应动力学方程。采用
学位
半导体多相光催化降解有机物是近年来发展起来的一种先进的废水处理技术。它能够破坏有机物的结构,且不产生二次污染、能耗低、工艺简单,因而对这种方法的理论和实验研究成为目前水处理方面的热门课题。由于TiO2具有较高的稳定性、活性,低成本、无毒性、难溶于酸和碱等特点,使其成为诸多半导体光催化材料中的首选。然而实践证明,利用纳米粉体二氧化钛光催化降解污染物时存在着二氧化钛易团聚而使其失去活性,且容易流失,不
学位
氨的选择性催化还原氮氧化物(SCR)是一种成熟高效的脱硝技术,其中催化剂为该技术的核心。传统的VO/WiO催化剂在高温条件下由于非选择性氧化氨而导致效果不佳,因此为了拓宽SCR的高效温窗,提高高温条件下的效果成为关键。文章以硫酸化VO/TiO作为研究对象,在固定床反应器中对典型的NH选择性催化还原NO进行了活性评价。考察了不同硫酸化制备方法、不同硫酸浸渍浓度、不同焙烧温度、以及不同活性组分负载量对
学位