Web数据挖掘技术探讨

来源 :新科教 | 被引量 : 0次 | 上传用户:luckyxiaoxi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要: 随着Web技术的日渐成熟,使基于这一技术的Internet应用以惊人的速度向社会生活的方方面面渗透。Internet的应用的普及使得数据挖掘技术的重点已经从传统的基于数据库的应用转移到了基于Web的应用。以Web服务器日志为例某些Web热点的日志数据正以每天数十兆的速度增长从这些大量数据中发现有用的重要的知识包括模式规则可视化结构等是数据挖掘与知识发现的又一重要研究和应用领域。文章就Web挖掘技术的概念、分类及文本挖掘和用户访问模式挖掘的实现技术做了详细的阐述。
  关键词:Web挖掘 ; 文本挖掘;用户模式挖掘
  
  一、 引言
  
  随着Internet/Intranet技术的发展,尤其是Web的全球普及,使得Web上信息量无比丰富,如何从非格式化数据信息中有效地挖掘出有用的信息是对数据挖掘领域的一个新挑战。
  Web上的数据信息不同于数据库。数据库有规范的结构,如关系数据库的二维表结构。它有统一的格式,其中的数据为完全结构化的数据。Web上的信息则不然,主要是些大量的异质的Web信息资源,文档结构性差,其数据多为半结构化或非结构化。由于半结构化和非结构化的信息不能清楚地用数据模型来表示,因此在Web上的数据挖掘需要用到很多不同于单个数据仓库挖掘的技术。文章将对Web挖掘技术做系统性的研究和探讨,并在此基础上介绍一些用于Web挖掘的工具。
  
  二、 Web挖掘概念
  
  Web挖掘是利用数据挖掘技术从Web文档及Web服务中自动发现并提取人们感兴趣的信息。它是一项综合技术,涉及到Internet技术、人工智能、计算机语言学、信息学、统计学等多个领域。
  通常人们往往将Web挖掘与Web上的信息检索或信息抽取等同起来,其实,它们之间是有区别的,主要体现在:(1)网络信息检索系统只能处理以关键词形式表示的简单目标,无法处理用户给出的样本形式式的复杂模糊目标,而挖掘系统则能够从文本中提取出目标信息的特征,然后根据目标特征在网络中进行有目的的搜寻,将搜寻到的文档提交给用户。(2)信息检索目的是针对某一特定领域进行信息或文档的收集,可以看作是用于Web挖掘中文档分类的一种情况。(3)不是所有的信息检索都要用到数据挖掘技术,因此信息检索通常不能发现隐藏在数据后面的联系,而Web挖掘的目的就是将大量看似无关的数据关联起来发现其中的规则和知识以供决策支持。尽管Web挖掘不同于信息检索,但它们在实现技术上却有很多相似之处,所以Web挖掘技术可以借鉴信息搜索技术。
  Web挖掘可分为三类:内容挖掘、结构挖掘、用户访问模式挖掘,而Web信息挖掘和用户访问模式挖掘是Web挖掘的两个主要方面。文章就这两个主要方面进行论述。
  2.1 Web内容挖掘。
  Web的内容挖掘可以说是将数据挖掘技术在网络信息处理中的应用,不同于传统的数据挖掘技术,Web挖掘主要是针对各种非结构化的数据,如文本数据、音频数据、视频数据、图形图象数据等多种数据相融合的多媒体数据挖掘。又可将其分为基于文本的挖掘和基于多媒体的挖掘两种。基于文本的Web挖掘方法有数据库方法,建立Web数据仓库方法和新近的基于软件Agent的分类器方法、基于概念的文本信息挖掘法。Web多媒体的信息挖掘通常采用的方法为关联规则法和特征提取法。数据库方法和数据仓库都是采用数据抽取和转换的方法后就可以采用数据库挖掘技术进行信息挖掘。
  2.2 用户模式挖掘
  用户使用Web获取信息的过程中需要不停地从一个Web站点通过超文本链接跳转到另一个站点,这种过程存在一定的普遍性,发现此规律即是Web用户访问模式发现。这是一种完全不同于上述所讲的资源发现的任务。它是对现代电子商务战略的一个重要支持。面向Web用户访问模式的挖掘是关于用户行为及潜在顾客信息的发现,包括三种模式,即数据预处理、模式发现及模式分析。在此,数据挖掘的主要任务是从数据中发现模式。通常实现方法是对Server Logs、Error Logs和Cookie Logs等日志文件的分析挖掘出用户访问行为、频度和内容等信息,从而找出一定的模式和规则。
  理解Web上的用户访问模式有如下好处:合理建造网站及合理设计服务器,如辅助改进分布式网络系统的设计性能,在有高度相关的站点间提供快速有效的访问通道;帮助更好地组织设计Web主页;帮助改善市场营销决策,如把广告放在适当的Web页上或更好地理解客户的兴趣,这样的知识将有助于商家制定促销策略。
  
  三 Web挖掘技术研究
  
  Web挖掘从数据挖掘发展而来,数据挖掘方法通常可分为两类,一类是建立在统计模型的基础上,采用的技术有决策树、分类、聚类、关联规则等;另一类是建立一种以机器学习为主的人工智能模型,采用的方法有神经网络、遗传算法等。
  3.1Web内容挖掘实现技术
  Web上的内容挖掘多为基于文本信息的挖掘,它和通常的平面文本挖掘的功能和方法比较类似。Web文档多为HTML、 XML等自然语言,因此可以利用Web文档中的标记,如< Heading>等额外信息利用这些信息来提高Web文本挖掘的性能。Web文本挖掘可以对Web上大量文档集合的内容进行总结、分类、聚类、关联分析等。 <br>  文本总结。其目的是对文本信息进行浓缩,给出它的紧凑描述。文本总结是指从文档中抽取关键信息,用简洁的形式对文档内容进行摘要或解释。这样,用户不需要浏览全文就可以了解文档或文档集合的总体内容。文本总结在有些场合十分有用,例如,搜索引擎在向用户返回查询结果时,通常需要给出文档的摘要。 <br>  文本分类。分类的概念是在已有数据的基础上学会一个分类函数或构造出一个分类模型(即我们通常所说的分类器'Classifier')。分类器一般分为训练和分类两个阶段。分类往往表现为一棵分类树,根据数据的值从树根开始搜索,沿着数据满足的分支往上走,走到树叶就能确定类别。 <br>  分类器的构造方法有统计方法、机器学习方法、神经网络方法等等。统计方法包括贝叶斯法和非参数法(近邻学习或基于事例的学习),对应的知识表示则为判别函数和原型事例。机器学习方法包括决策树法和规则归纳法,前者对应的表示为决策树或判别树,后者则一般为产生式规则。神经网络方法主要是BP算法,它的模型表示是前向反馈神经网络模型(由代表神经元的节点和代表联接权值的边组成的一种体系结构),BP算法本质上是一种非线性判别函数。 <br>  文本聚类。文本聚类是一种典型的无教师的机器学习问题。目前的文本聚类方法大致可以分为层次凝聚法和平面划分法两种类型。聚类是把一组个体按照相似性归成若干类别,即“物以类聚”。它的目的是使得属于同一类别的个体之间的距离尽可能的小,而不同类别上的个体间的距离尽可能的大。 <br>  关联规则。关联规则模式属于描述型模式,发现关联规则的算法属于无监督学习的方法。关联规则的定义为:若X、 Y为项目集且X∩Y=Φ,蕴涵式X Y称为关联规则,X、Y分别称为关联规则XY的前提和结果。项目集(X∪Y)的支持率称为关联规则XY的支持率,定义为: <br>  support(XY)=support(X∪Y) <br>  关联规则XY的置信度定义为: <br>  confidence(XY)= 100% <br>  支持率和置信度是描述关联规则的两个重要概念,前者用于衡量关联规则在整个数据集中的统计重要性,后者用于衡量关联规则的可信程度。通常用户只对支持率和置信度均高的关联规则感兴趣,也只有支持率和置信度均高的关联规则才是有用的关联规则。发现关联规则通常要经过以下三个步骤: <br>  (1)连接数据,作数据准备; <br>  (2)给定最小支持度和最小可信度,利用数据挖掘工具提供的算法发现关联规则; <br>  (3)可视化显示、理解、评估关联规则。 <br>  3.2 用户模式挖掘实现技术 <br>  用户访问模式又可称为用户导航信息。在Web的用户访问模式的挖掘中,描述用户访问模式的数据包括:IP地址、参考页面、访问日期和时间、用户的Web站点及配置信息。这些数据可以来自于服务器端、客户端、代理服务器端或者是公司的数据库。 <br>  常用的有两种方法发现用户导航信息: <br>  (一) 通过对日志文件进行分析。 <br>  1、访问前先进行预处理,即将日志数据映射为关系表并采用相应的数据挖掘技术,如关联规则或聚类技术来访问日志数据。 <br>  2、对日志数据进行直接访问以获取用户的导航信息。 <br>  (二) 通过对用户点击事件的搜集和分析发现用户导航行为。 <br>  用户导航信息的挖掘通常要经过下面三个步骤: <br>  1、数据预处理阶段。这是用户导航信息挖掘最关键的阶段数据预处理包括:关于用户导航信息的预处理,关于内容预处理和结构的预处理; <br>  2、模式识别阶段该。阶段采用的方法包括:统计法、机器学习和模式识别等方法。实现算法可以是:统计、分析、聚类、分类、关联规则、序列模式识别等。 <br>  3、模式分析阶段。该阶段的任务是从上一阶段收集的数据集中过滤掉不感兴趣和无关联的数据及模式。具体的实现方法要依具体采用的Web挖掘技术而定,通常采用的方法有两种:一种采用SQL查询语句进行分析,另外一种将数据导入多维数据立方体中,而后利用OLAP工具进行分析并提供可视化的结果输出。 <br> </div> </section> <!-- 其他文献块 --> <section class="article-other"> <div class="article-other-header" style="color:#2162e4"><span>其他文献</span></div> <div class="article-other-content"> <div class="tit"><a href="/periodical/7a1803340b12a093179169053b0156a3.html" target="_blank" title="中学英语听力训练的具体措施"> 中学英语听力训练的具体措施 </a></div> <div class="con"> 《中学英语教学大纲》明确规定:中学阶段要发展学生们的听、说、读、写的基本技能,培养在口头上和书面上初步运用英语进行交流的能力。听、说、读、写四种技能是相互紧密依赖的。说的能力在很大程度上有赖于听的能力。不仅如此,现代研究阅读的专家们认为,训练有素的耳朵也有助于学生们阅读,进而有助于写作。然而,听的技能确实需要进行系统地训练。     一、充分利用课堂用语     英语新教材的突出特点就是侧重对学生 </div> <div class="typ"> <div class="typ-nam"> <span>期刊</span> </div> <div class="typ-con"> </div> </div> </div> <div class="article-other-content"> <div class="tit"><a href="/periodical/a9f2ddfac143cb9664cb6aa915272aff.html" target="_blank" title="新课标下初中数学教学的几点尝试"> 新课标下初中数学教学的几点尝试 </a></div> <div class="con"> 摘 要: 新的课改实验教材综合性增强,实践、操作性内容增多,注重培养学生的创新思维。面对新教材,我在教学中采取了一些比较新颖的教学方法,取得了不错的效果。  关键词:新课标;初中数学;教学    新的课改实验教材综合性增强,实践、操作性内容增多,注重培养学生的创新思维。应用数学新教材中,如何引导学生去学成为关键。这就要求我们的课堂教学模式要有所改进,充分考虑学生的好奇心和荣誉感,鼓励学生多讨论多参 </div> <div class="typ"> <div class="typ-nam"> <span>期刊</span> </div> <div class="typ-con"> </div> </div> </div> <div class="article-other-content"> <div class="tit"><a href="/periodical/fde40c1c0288a9e50e0ec04fc54f8aa7.html" target="_blank" title="理解课改理念 优化教学过程"> 理解课改理念 优化教学过程 </a></div> <div class="con"> 摘 要:随着新课程改革的步步深入,反思一年的教学过程,必须进一步理解课改理念,不断优化教学过程——教学设计必须符合教学理念;教学方法必须适应课改;教学过程必须突出三维目标;媒体辅助教学必须有效激发学生学习的兴趣  关键词:新课程 ; 教学过程 ;教学理念     经过一年的化学新课程教学,使我认识到过去以教师传授为主的教学模式开始“退变”,重视学生创新精神和实践能力,充分让学生的智力接受挑战、思维 </div> <div class="typ"> <div class="typ-nam"> <span>期刊</span> </div> <div class="typ-con"> </div> </div> </div> <div class="article-other-content"> <div class="tit"><a href="/periodical/97bbf1b4da790757edeea366ef6aac48.html" target="_blank" title="我对高中历史新课改的几点认识"> 我对高中历史新课改的几点认识 </a></div> <div class="con"> 摘 要: 我校新课改已经实施快一年了,就历史课程而言,全面使用了新课程标准下的历史新教材,新教材同老教材相比发生了颠覆性的变化。作为一位课改前言的高中历史老师我对新课改也有自己的看法,新课改既有机遇又有挑战。  关键词:新课改 ;教学新理念;机遇;挑战    近几年高中新课程改革在全国各地如火如荼的进行着,2008年新疆自治区高中年级也吹来了新课改的春风,全面使用了新课程标准下的历史新教材,新教材 </div> <div class="typ"> <div class="typ-nam"> <span>期刊</span> </div> <div class="typ-con"> </div> </div> </div> <div class="article-other-content"> <div class="tit"><a href="/periodical/a6f5d1549677880da024d804f0788f9c.html" target="_blank" title="浅议初中地理教学改革"> 浅议初中地理教学改革 </a></div> <div class="con"> 摘 要: 地理学是研究人类赖以生存和发展的地理环境,以及人类活动与地理环境关系的一门科学,地理教学要“以学生发展为本”,“学习对生活有用的地理”,遵循这一理念,在地理教学中应重视地理教学意识的更新和教学技能的提高,这就需从地理教学内容、教学手段和教学方法进行改革。   关键词:新课程标准;地理教学;电化教学改革     我国基础教育要求改变“应试教育”的偏向,强调着眼于提高公民素质,为基础地理教育 </div> <div class="typ"> <div class="typ-nam"> <span>期刊</span> </div> <div class="typ-con"> </div> </div> </div> <div class="article-other-content"> <div class="tit"><a href="/periodical/cf3b5e949a90020e8e162e0d5237c5b6.html" target="_blank" title="论中等职业学校德育课程改革"> 论中等职业学校德育课程改革 </a></div> <div class="con"> 摘 要: 中等职业教育课程已进入新一轮的改革高潮,其中涉及到五门德育课程改革。如何提高德育课教学效率成为一个很重要的课题。根据新课程精神和新教材的特点,本文试从以下几个方面作些探讨。   关键词:职业德育;课改     《教育部关于进一步深化中等职业教育教学改革的若干意见》中再次提到“坚持育人为本,把德育工作放在首位”,明确指出了德育课程的重要性。众所周知,中等职业学校的学生素质参差不齐,往往是文 </div> <div class="typ"> <div class="typ-nam"> <span>期刊</span> </div> <div class="typ-con"> </div> </div> </div> <div class="article-other-content"> <div class="tit"><a href="/periodical/57cbfcf3af395427dbac6153504a5cb5.html" target="_blank" title="高中生物新课程教学理念及实践"> 高中生物新课程教学理念及实践 </a></div> <div class="con"> 2008年秋季在新疆进行了轰轰烈烈的高中新课程改革,到现在已近一年,在课改后的课堂教学与课改前相比有哪些异同点?课改的基本理念与实践之间的距离到底有多远?对新课程所遇到的困难我们应该怎样面对?    一、课改实验    与旧课程相比,新课程主要有以下变化:一是教材变了。本校使用的是人教版的教材,与以前相比,内容更丰富了,版面更活泼了,与生活更贴近了,教材所设置的练习形式也有所改变,更富有探究性和针 </div> <div class="typ"> <div class="typ-nam"> <span>期刊</span> </div> <div class="typ-con"> </div> </div> </div> <div class="article-other-content"> <div class="tit"><a href="/periodical/a4b7e781b73cc9db599448122c641b26.html" target="_blank" title="审视新课标下数学“练习设计”的走向"> 审视新课标下数学“练习设计”的走向 </a></div> <div class="con"> 一、崇尚自主,凸显练习的“民主自由”    学生是教育的主体,自主练习是学生身心发展的客观需要。在教学过程中,只有唤起学生的主体意识,调动学生的自主力量,才能促使全体学生自主学习。  教育的核心是让学生学会学习、学会做人,教师作为练习设计的策划者,必须尊重学生,充分发挥学生的主体作用,让学生做练习的主人,做自己的“练习”。实践证明并不是每一个学生对于相同的练习都能承受,因此,练习设计须考虑不同层次 </div> <div class="typ"> <div class="typ-nam"> <span>期刊</span> </div> <div class="typ-con"> </div> </div> </div> <div class="article-other-content"> <div class="tit"><a href="/periodical/c270135a85b2c853722a90ea79c2c10c.html" target="_blank" title="论美术教学过程中“开放——审美”教学模式的实施策略"> 论美术教学过程中“开放——审美”教学模式的实施策略 </a></div> <div class="con"> 一、模式的实施策略    “开放——审美”教学模式的实施在整体上体现小学美术教学活动的主体性、发展性、开放性、全面性原则。模式通过提供给学生感受、表现、创造的机会,使学生主动参与到美术学习活动中,激发了学生学习美术的兴趣,并使学生获得审美的体验和成功的欢愉,提高学生的鉴赏能力和表现能力。模式的实施分以下五个环节:  第一环节:创境激趣。教师要诱发学生的学习热情,激励与唤醒学生的审美情趣。德可乐利指 </div> <div class="typ"> <div class="typ-nam"> <span>期刊</span> </div> <div class="typ-con"> </div> </div> </div> <div class="article-other-content"> <div class="tit"><a href="/periodical/e79c33816b9358fb9750ef45311fce7e.html" target="_blank" title="如何快速全面地查找医学文献"> 如何快速全面地查找医学文献 </a></div> <div class="con"> 随着知识经济的到来,图书馆在高校中的作用和地位与日俱增,做为一个医务工作者,在他的临床、科研、教学过程中,如何快速全面地查找医学文献呢?也就是必需掌握一些医学文献的主题标引与检索法。  主题索引,就是提供用户从拟查课题的主题概念入手检索文献。以美国“医学索引”为例,它以MESH中的主题词为标目,按字顺排列,所有题目分别列在那些代表文献最重要内容的主题词,或进一步对该主题词进行限制的副主题词下。主题 </div> <div class="typ"> <div class="typ-nam"> <span>期刊</span> </div> <div class="typ-con"> </div> </div> </div> </section> </div> </div> <!-- 右侧边栏 --> <div class="col-lg-3 col-md-3 hidden-sm hidden-xs"> <div class="content-right"> <div class="sid"> <div class="tit"> <h3>其他学术论文</h3> </div> <div class="con3"> <ul> </div> <!-- <div class="bot"> <a href="#" target="_blank"><button class="btn btn-default btn-block">更 多</button></a> </div> --> </div> <div class="sid-img-ad"> <script src=/d/js/public/new5.js></script> </div> </div> </div> </div> </section> </main> <!-- 页面底部 --> <footer class="public-footer"> <section class="top"> <div class="container"> <div class="row"> <div class="col-xs-120 gongjujianjie">期刊论文Web数据挖掘技术探讨发表于2009年6期新科教作者唐 健,本篇论文的所有权归原作者唐 健所有,如果您对本文有版权争议,可与客服联系进行内容授权或下架。 </div> </div> </div> </section> <section class="bottom"> <div class="container friend-link"> <div class="row"> <div class="col-xs-12"> <span class="title">友情链接:</span> <a href="https://www.soolun.com/" target="_blank">信丰网</a> <a href="https://www.soolun.com/" target="_blank">论文下载</a> </div> </div> </div> <div class="container service-link"> <div class="row"> <div class="col-lg-9 col-md-9 col-sm-12 col-xs-12"> <div class="aboutus"> <a href="/about.html">关于我们</a> <a href="/about.html">联系我们</a> <a href="/about.html">广告服务</a> <a href="/about.html">版权声明</a> <a href="/about.html">新手指南</a> <a href="/about.html">网站地图</a> </div> <div class="kefuqq"> 客服qq:184688754 客服qq:184688754 </div> <div class="disclaimer"> <span>声明:本文档内容版权归属内容提供方,如果您对本文有版权争议,可与客服联系进行内容授权或下架</span><span>信丰网</span> © CopyRight 2018-2025 </div> </div> <div class="col-lg-3 col-md-3 col-sm-12 col-xs-12 wechat"> <div class="wechat-item"> <img src="/image/weixin.png" alt="微信客服" > <div class="img-name">微信客服</div> </div> <div class="wechat-item"> <img src="/image/weixin.png" alt="微信服务号"> <div class="img-name">微信服务号</div> </div> </div> </div> </div> </section> </footer> <script src="/js/jquery.min.js"></script> <script src="/js/bootstrap.min.js"></script> <script src="/js/bootstrap-hover-dropdown.min.js"></script> <script src="/js/bootstrap-select.min.js"></script> <script src="/js/js.js?v=1.0"></script> </body> </html>