Web挖掘技术研究

来源 :电脑知识与技术(学术交流) | 被引量 : 0次 | 上传用户:loveag
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:信息时代的到来,伴随着海量数据的不断出现,web挖掘为当今海量数据处理提供了强有力的技术手段。介绍了Web挖掘的概念,给出了Web挖掘的三种分类,并针对内容挖掘、结构挖掘、使用挖掘论述了Web挖掘在搜索引擎、电子商务、疾病防治等方面的应用。提出了Web挖掘存在的问题,最后展望了Web挖掘的未来努力方向。
  关键词:Web挖掘;内容挖掘;结构挖掘;使用挖掘;搜索引擎
  中图分类号:TP311文献标识码:A 文章编号:1009-3044(2009)22-00000-00
  
  随着因特网技术的不断发展,尤其是Web的全球普及,Web上存在着海量的数据信息,互联网日益成为人们获取信息的有效途径。由于Web具有无结构、动态变化等特点,给人们在网上搜索资源带来一定的困难。
  传统的搜索引擎存在许多问题,例如:覆盖面有限、误差率和漏查率高、检索速度不理想等。怎样对网上的数据进行复杂的应用成了当今数据库技术的研究热点。
  基于Web的数据挖掘(简称Web挖掘)是利用数据挖掘技术从Web文档和Web活动中抽取人们感兴趣的、潜在的有用模式和隐藏的信息,是合理利用网上海量数据的有效技术之一。针对包括Web页面内容、页面之间的结构、用户访问信息、电子商务信息等在内的各种Web数据,应用数据挖掘方法以发现有用的知识来帮助人们从WWW中提取知识,改进站点的设计,更好地开展电子商务。
  
  1 Web挖掘的分类
  
  具体来说,Web挖掘可以定义为:Web挖掘是指从大量Web文件的集合C中发现隐含的模式p。如果将C看作输入,将p看作输出,那么Web挖掘的过程就是从输入到输出的一个映像:C→p。
  Web是一个非常成功的基于超文本的分布式信息系统。Web目前涉及新闻、广告、消费信息、教育、政府、电子商务等许多信息服务,Web包含丰富和动态的超链接信息,这些为数据挖掘提供了大量的资源。
  一般地,Web挖掘可分为三类:Web内容挖掘、Web结构挖掘和Web使用记录的挖掘。图1给出了Web挖掘的分类。
  1.1 Web内容挖掘(content mining)
  Web内容挖掘是从文件内容或其描述中筛选知识的过程。Web文件文本内容的挖掘、面向概念索引的资源发现,以及面向代理的技术都属于这一类。Web内容挖掘有两种策略:直接挖掘文件的内容,或在其他工具搜索的基础上进行改进。采用第一种策略的有锁定网络的查询语言Web Log、WebOQL等,利用启发式规则寻找个人首页信息的Ahoy等。采用第二种策略的方法主要是对查找引擎的查询结果作进一步的处理,得到更为精确和有用的信息。属于此类技术的有WebSQL及对查找引擎的返回结果进行群集的技术等。
  1.2 Web结构挖掘(structure mining)
  传统的Web搜索引擎大多数是基于关键字匹配的,返回的结果是包含查询项的文档,也有基于目录分类的搜索引擎。这些搜索引擎的结果并不令人满意。有些站点有意提高关键字出现的频率来提高自身在搜索引擎中的重要性,破坏搜索引擎结果的客观性和准确性。另外,有些重要的网页并不包含查询项。搜索引擎的分类目录也不可能把所有的分类考虑全面,并且目录大多靠人工维护,主观性强,费用高,更新速度慢。
  Web结构挖掘是从WWW的组织结构和链接关系中推导知识。Web结构挖掘的目的是发现页面的结构和Web的结构,在此基础上对页面进行分类和群集从而找到权威页面。怎样才算是一个权威页面呢?指向一个文档的超链接体现了该文档的被引用情况。如果大量的链接都指向了同一个网页,我们就认为它是一个权威页。这就类似于信息检索领域,根据杂志论文的引用情况来评估论文的质量。这种方法的原理是一个作者引用另一篇论文,表示该作者对这篇论文的认可。Web不仅由页面构成,而且还包含从一个页面指向另一个页面的超链接。超链接包含大量潜在的语义,它有助于分析出权威性的语义。
  1.3 Web使用记录的挖掘(usage mining)
  Web服务器通常保存了对Web页面的每一次访问的(Web)日志项,或称为Weblog项。它包括了所请求的URL,发出请求的IP地址,和时间戳。对基于Web的电子商务服务器,保存了大量的Web访问日志记录。
  使用记录实际上也是流水操作记录的一种,它真实地记录着访问者对Web服务器访问的细节情况。因此,对于这些原始数据,可以对其进行一些研究工作,如系统性能分析,通过Web缓存改进系统设计,使得页面缓存机制更加适合实际的需要,并且可以动态适应访问者访问行为模式。这些分析还可以有助于建立针对个体用户的定制Web服务。在这些分析结果的驱动下,可以使得Web具有智能性,能快速、准确地找到用户所需信息;能为不同用户提供不同的服务;能为用户提供产品营销策略信息等等。因此研究复杂的Weblog挖掘技术十分重要。Web使用记录的挖掘通常需要经过数据预处理、模式识别、模式分析三个阶段。
  
  2 Web挖掘的应用
  
  随着数据挖掘技术的不断进步,Web挖掘的应用已涉及各行各业,本文主要阐述其在电子商务、疾病防治和搜索引擎三方面的应用。
  2.1Web挖掘在电子商务中的应用
  1)客户分类和聚类
  对Web的客户访问信息进行挖掘,可对客户进行分类分析,例如根据国家或类型( .com ,.edu,.gov)进行分类分析。对客户进行聚类分析,将客户进行分组,分析组中客户的共同特征,通过对客户的分类和聚类,就可以让销售商更好地了解自己的客户,向客户提供更有针对性的服务。
  2)潜在客户的寻找
  在对Web客户的访问信息的挖掘中,利用分类技术在互联网上获取未来的潜在客户。通常获取这些潜在客户的市场策略,是先对已经存在的访问者进行分类,对于一个新的访问者,通过在Web上的分类发现,识别这个访问者与已经分类的访问者的一些公共的描述,从而对这个访问者进行正确分类,从而判断这个新的访问者是否是一个潜在的客户。客户的类型确定之后,就可以对客户动态地展示Web页面,页面的内容取决于客户与销售商提供的产品和服务的关联。
  3)客户驻留
  由于因特网无国界的特点,传统客户与销售商之间的空间距离在电子商务中已经不复存在,每一个销售商对于客户来说都是一样的。如何让客户在相应的网络销售点驻留更久,那么,销售商就要尽量了解客户的浏览行为。利用Web挖掘,就可以知道客户的行为模式,了解客户的兴趣及需要,从而根据客户的兴趣及需要动态地调整Web页面,以便更好地满足客户的需要。在因特网上的电子商务中的一个典型序列,恰好代表了一个购物者以页面形式在网站上导航的行为,所以可运用数据挖掘中的序列模式发现技术。
  2.2Web挖掘在搜索引擎中的应用
  通过对网页内容的挖掘,可以实现对网页的聚类和分类,实现网络信息的分类浏览与检索;通过用户使用的提问式(query)历史分析,可以有效地进行提问扩展,提高用户的检索效果(查全率、查准率);运用Web挖掘技术改进关键词加权算法,提高网络信息的标引准确度,改善检索效果。Web挖掘是目前网络信息检索发展的一个关键。
  2.3 Web挖掘在疾病防治中的应用
  自2003年全球出现“非典”以来,多种传染病接踵而来。事实证明,许多疾病是可预防的,但目前这些预警工作仍很缺乏。随着计算机信息技术的不断发展,人类已进行了网络时代,而且网络技术日新月异,许多人喜欢上网写博客,或到论坛上留言。基于Web的挖掘技术利用其文本挖掘功能,可对博客或论坛的有用文本进行挖掘,以服务于人类。
  文本挖掘是从非结构化的文本中发现潜在的概念以及概念间的相互关系。在这项技术中,最关键的是分词技术,建立词典。只有让计算机依据词典完成正确断词之后,才可以实现将非结构化信息转化为结构化信息,然后就可以进一步研究文本之间的关系。比如通过分析Blog网页来建立禽流感预警机制,很好地体现了Web挖掘在疾病防治中的应用。
  
  3web挖掘的困惑
  
  尽管业内普遍认识到web挖掘的重要性,但目前尚存在一些瓶颈。
  1)一个关键问题是电子商务的评估指标(e-Metrics)还没有形成一个完整的体系。所谓指标体系就要设定几个维度来衡量电子商务网站生意的好坏。目前,有些电子商务网站已经开始定义像潜在顾客率(reach)、招揽时间(Acquisition)、潜在顾客转化率(Conversion)等一些评估指标,美国的一些技术会议也已经开始做一些整合工作,但是要形成体系还需要一段时间。
  2)资金有限。
  例如,商智通公司咨询总监匡宏波表示,曾经有一家医药类电子商务网站主动找上门,提出要求想知道平台的某类药品(比如盘尼西林)主要销往哪里。但盛秋戬博士也指出,就电子商务领域的总体而言,除了像亚马逊、eBay等一些国外大型电子商务网站开始自己买工具进行挖掘之外,国内少数注意到数据挖掘技术的网站大多是自己开发做此类工作,舍得掏钱的人还不多。
  3)应用领域过于狭隘。
  无论厂商、集成商还是学术界,基本上都认同一个观点,即:数据挖掘在技术上已经趋于成熟,现在更重要的就是如何拓展行业应用。 IBM软件部中国区DB2信息管理技术经理刘晶炜表示说,数据挖掘技术已经到了一个普及化的阶段,现在关键是要让数据挖掘从神坛上走下来。商智通公司咨询总监匡宏波也表示,现在数据挖掘领域的问题都不是技术问题,也不是工具问题,而是应用问题。
  1)从行业应用来看,目前大多数的用户都来自电信、银行、保险、税务等领域,比如南京地税、四川移动两个案例就做得相当成功,应用主题则主要包含:消费者行为分析、信用评分与风险管理、欺诈行为侦测、购物篮分析等方面。综合国内外的发展趋势,可以看到的是,大型连锁商店和高科技制造产业也将成为应用数据挖掘技术的重要领域。
  2)从应用层次上看,大体可以分为三个层次,第一层次是把挖掘工具当作单独的工具来用,偶尔用一下出具一个报告,不用专门建设系统;第二层次则是把数据挖掘模块嵌入到系统中,称为部门级应用;第三层次是企业级应用,相当于把挖掘系统作为整个企业运营的CPU。目前,国内的数据挖掘应用是本来数量就比较少,即便是做了的,也有很多只是处于第一层次,偶尔某些用户能够做到第二层次。
  结束语
  由于Web上存在着大量的信息,Web在当今社会经济生活中扮演着越来越重要的角色,Web挖掘的应用将越来越广泛,用户对高品质、个性化信息的需求也将进一步推动Web挖掘技术的研究与发展。Web挖掘是一个较热门的研究领域,由于Web自身的特点,我们还有许多问题有待于进一步的研究与发展,例如开发更好的数据搜集机制和技术是很有必要的。在挖掘处理方面,开发新模型将更有效地锁定Web使用记录的增量变化和分布特性。
  
  参考文献:
  [1] 梁循.数据挖掘算法与应用[M].北京:北京大学出版社, 2006
  [2] 林杰斌,刘明德,陈湘等.数据挖掘与OLAP理论与实务[M].北京:清华大学出版社,2003
  [3] 朱明.数据挖掘[M].合肥:中国科学技术大学出版社,2002
  [4] 陈文伟,黄金才,赵新昱等.数据挖掘技术[M].北京:北京工业大学出版社,2002
  [5] Jeffiey A.Hoffer Mary B.Prescott Fred R.McFadden著,施伯乐,杨卫东,孙未未等译.现代数据库管理[M].北京:机械工业出版社,2004
  [6] 夏火松.数据仓库与数据挖掘技术[M].北京:科学出版社,2004
  [7] 陈京民等.数据仓库与数据挖掘技术[M].北京:电子工业出版社,2002
  [8] http://publishblog.blogchina.com/blog/tb.b?diaryID=3442640
其他文献
摘 要:体育教师是体育教学活动中起着非常重要的作用,他是引导学生能够很好的进行体育活动的引导者,是体育教学活动中的主导者。教育是使我国不断进步的动力,也是根本。所以我们应该重视教育事业的建设,而教育事业的建设又需要靠从事教育事业的老师的努力,如何培养专业水准特别高的老师是我们教育事业需要努力的一个重要方向。只有老师的整体水平都很高才可以培养出具有高综合素质的学生。本文通过对鹤壁市调查,通过对农村中
摘 要:体育课是体育教学的基本组织形式,是由体育教师和学生共同参与的教与学的双边活动。身体练习、运动负荷、开放性的特点使得体育课与文化课之间存在很大的差异。文章采用文献资料法并结合自身的体育课堂教学经验,为了高效地完成体育课堂教学目标,实现体育教学效益最大化,对课前准备、专业的语言和标准的示范、教材重难点、课堂组织、课堂氛围五个方面进行研究,并提出理论建议使体育课更加的完善合理。  关键字:体育课
摘要:Ad Hoc网络是一种新型、多跳、自组织的无线网络,借助于多跳转发技术来弥补无线设备的有限传输距离,网络节点能够动态地、随意地、频繁地进入和离开网络,从而拓宽网络的覆盖范围,为用户提供各种服务、传输各种业务。文中介绍了Ad Hoc网络的发展历史、概念、主要特点、国内外的研究现状及Ad Hoc网络的应用,并指出了Ad Hoc网络管理面临的问题。   关键词:Ad Hoc;无线网络;自组织;多跳
摘要:提出了一种基于Agent的分布式入侵检测系统模型,实现HIDS和NIDS的互补,充分利用Agent自身的独立性与自主性,有效解决了传统集中式处理的单点失效问题,同时降低各个部件之间的相互联系,实现了入侵检测系统计算的分布化,提高了入侵检测系统的性能及其可靠性,具有良好的扩展性,能更好的满足大规模网络环境的要求。  关键词:入侵检测;Agent;网络安全  中图分类号:TP393文献标识码:A
摘要:叙述了VirtuoZoAAT进行空中三角测量的工作流程和主要的步骤,并通过VirtuoZoAAT进行空三处理后,导入到VirtuoZo进行了焦作地区DOM的制作。  关键词:VirtuoZoAAT;自动空三;正射影像  中图分类号:TP317文献标识码:A文章编号:1009-3044(2009)22-0000-00    VirtuoZoAAT是国际上著名的空三加密软件,它具有半自动量测控制
摘要:随着网络的飞速发展,Web挖掘技术已成为一个研究热点。本文就Web挖掘与相关研究进行了对比,介绍了Web挖掘的概念、分类及步骤,最后给出了Web挖掘的研究方向。  关键词:Web挖掘;数据挖掘;信息检索    随着数字化信息时代的到来,网络日渐成为人们获得信息的重要途径。然而网络中信息量巨大且分散无序,Web用户经常发现难以找到其所需的信息,造成“信息过载,知识匮乏”[1]的现状。通用搜索引
摘要:FTTB是FTTx的主流建网模式。在建网过程中,FTTB面临着多业务承载以及QoS的挑战。本文针对FTTB的GPON技术,详细阐述了多业务承载以及保证QoS的实现方案。  关键词:QoS;多业务;GPON;FTTB  中图分类号:文献标识码:A文章编号:1009-3044(2009)22-pppp-0c    近年来,随着高宽带需求的互联网增值业务的迅速发展,宽带化成为了电信产业发展的潮流所
摘要:本文简单介绍了RFID技术的基本原理及其组成,并研究了当前超高频RFID读写器在监狱安全管理及人员监控的应用。  关键词:RFID;标签;读写器  中图分类号:TP393文献标识码:A文章编号:1009-3044(2009)22-pppp-0c    随着公安、司法机关维护社会秩序和打击刑事犯罪的任务日益严重,各种监管场所的拘押、收教、强制戒毒等违法犯罪人员数量持续不减,如何在新形式下以科技
摘要:本文对snort入侵检测系统及基于免疫原理的入侵检测技术进行了探讨和研究,利用snort系统作为误用检测系统,把人工免疫的算法应用到异常检测,用于检测未知攻击。在此基础上设计了混合模式入侵检测系统。  关键词:入侵检测;免疫原理;误用检测;异常检测  中图分类号:TP311文献标识码:A 文章编号:1009-3044(2009)22-00000-00    随着信息技术的发展,计算机成为社会
摘要:该文通过对IP追踪技术进行总结,回顾了IP追踪的起源,按照主动和被动性对其进行分类,分析了各个IP追踪方法的基本原理和优缺点,指出了IP追踪技术存在的问题,展望了IP追踪的发展。  关键词:IP追踪;网络安全;主动追踪;被动追踪  中图分类号:TP393文献标识码:A文章编号:1009-3044(2009)22-pppp-0c    随着Internet在商业活动中的重要性不断增长,网络攻击