Web数据挖掘技术综述

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:ioryfei913
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:万维网是一个巨大的、分布广泛的、全球性的信息服务中心,它包含了丰富的信息资源。Web挖掘可以快速有效地从互联网上获取所需要的信息。该文从Web数据挖掘的基本概念出发,结合Web数据的特点介绍了Web数据挖掘的类型、过程和技术,并对Web挖掘的应用前景进行了展望。
  关键词:Web数据挖掘;挖掘过程;挖掘技术
  中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2009)15-3852-02
  
  The Summary of Web Mining Technology
  PAN Zheng-gao1,2
  (1.School of Information and Computer,Hefei University of Technology,Hefei 230009,China;2.the Lab of Artificial Intelligence and Data Mining,Suzhou University,Suzhou 234000,China)
  Abstract:WWW contains abundant information,as a enormous,extensive and global service center of information.Web Mining can be assumed speedinessly and effectively the information what we needed.This text introduce the types,procession and technologys of Web Mining,except the foreground of it's application.Those work based on the basic concept and characteristic of Web Mining.
  Key words:Web Mining; Mining Course; Mining Technology
  
  1 引言
  
  随着Internet的发展,Web信息迅速膨胀,如何从海量的Web信息中快速和准确地获取有用信息已经成为近几年数据挖掘领域研究的热点。Web上的数据与其他的数据相比较存在着明显的特点,这些特点使得Web挖掘在方法和技术方面与传统的数据挖掘有着显著的不同。
  
  2 Web数据挖掘的概念
  
  Web数据挖掘(Web Mining),简称Web挖掘,是由Oren Etzioni在1996年首先提出的[1]。它是数据挖掘技术和Internet应用研究相结合的研究领域。一般,对Web数据挖掘定义如下:Web数据挖掘是指Web从文档结构和使用的集合C中发现隐含的模式P。如果将C看作输入,P看作输出,则Web挖掘的过程就是从输入到输出的一个映射[2]。
  Web挖掘是指从大量的Web数据中发现新颖的、潜在可用的及最终可以理解的知识(包括概念、模式、规则、规律、约束及可视化等形式)的非平凡过程。Web挖掘是数据挖掘技术和Internet应用研究相结合的产物,其涉及的技术覆盖了多个研究领域,包括数据库技术、信息获取技术、统计学、机器学习、神经网络等。
  
  3 Web数据的特点[3]
  
  1) 异构数据库环境。Web上的每一个站点就是一个数据源,每个数据源都是异构的,因而每一站点的信息和组织都不一样,这就构成了一个巨大的异构数据库。
  2) 分布式数据源。Web页面散布在世界各地的Web服务器上,形成了分布式数据源。
  3) 半结构化。半结构化是Web上数据的最大特点。Web上的数据非常复杂,没有特定的模型描述,是一种非完全结构化的数据,称之为半结构化数据。
  4) 动态性强。Web是一个动态性极强的信息源,信息不断地快速更新,各站点的链接信息和访问记录的更新非常频繁。
  5) 多样复杂性。Web包含了各种信息和资源,有文本数据、超文本数据、图表、图像、音频数据和视频数据等多种多媒体数据。
  
  4 Web数据挖掘的分类
  
  Web挖掘技术根据挖掘的方向一般分为三类:Web内容挖掘,Web结构挖掘和Web使用记录的挖掘。
  4.1 Web内容挖掘(WCM,Web Content Mining)
  Web内容挖掘是指从大量的Web数据中发现信息、抽取知识的过程。这些Web数据的形式有Web页面、Web页面上各种链接所指向的內容以及网络数据库里的数据等。从内容方面,Web内容挖掘可分为Web文本挖掘和Web多媒体挖掘,它们的不同在于提取的特征不同。从方法上,Web内容挖掘可分为数据库方法和信息抽取方法。
  4.2 Web结构挖掘(WSM,Web Structure Mining)
  Web结构挖掘是从Web的组织结构、Web文档结构与其链接关系中挖掘潜在的知识和模式。通过对Web结构的分析,可以发现页面结构和链接关系中所蕴涵的有用模式;也可以对页面及其链接进行分类和聚类,发现权威页面。有关这方面的算法研究成果有:Page-rank、HITS(Hyperlink-Induced Topic Search)及改进的HITS(将内容信息加入到链接结构中去)、Hub/authority(Kleinberg,1998)[4]。
  4.3 Web使用挖掘(WUM,Web Usage Mining)
  Web使用挖掘是应用数据挖掘技术从Web数据中发现用户访问模式的过程[5]。它可以帮助我们提高Internet信息服务的质量,改进Web服务器的系统性能和结构。
  
  5 Web数据挖掘过程
  
  Web数据挖掘过程是一个完整的KDD过程,但是与传统的数据和数据仓库相比,Web上的信息是非结构化或半结构化的、动态的、并且是容易造成混淆的,所以很难直接以Web网页上的数据进行数据挖掘,而必须经过必要的数据处理。典型Web挖掘的处理流程如图1所示,包括如下四个过程:
  1) 查找资源:根据挖掘目的,从Web资源中提取相关数据,构成目标数据集,Web数据挖掘主要从这些数据通信中进行数据提取。其任务是从目标Web数据(包括Web文档、电子邮件、电子文档、新闻组、网站日志、网络数据库中的数据等)中得到数据。
  2) 数据预处理:在进行Web挖掘之前对“杂质”数据进行过滤,例如消除数据的不一致性;将多个数据源中的数据统一为一个数据存储等。预处理数据的效果直接影响到挖掘算法产生的规则和模式。数据预处理主要包括站点识别、数据选择、数据净化、用户识别和会话识别等。
  3) 模式发现:利用挖掘算法挖掘出有效的、新颖的、潜在的、有用的及最终可以理解的信息和知识。常用的模式发现技术包括:路径分析、关联规则挖掘、时序模式发现、聚类和分类等技术。
  4) 模式分析:利用合适的工具和技术对挖掘出来的模式进行分析、解释、可视化,把发现的规则模式转换为知识。
  
  6 常用的数据挖掘技术
  
  6.1 路径分析技术
  我们通常采用图的方法来分析Web页面之间的路径关系。G=(V,E),其中:V是页面的集合,E是页面之间的超链接集合,页面定义为图中的顶点,而页面间的超链接定义为图中的有向边。顶点v的入边表示对v的引用,出边表示v引用了其他的页面,这样形成网站的结构图,从图中可以确定最频繁的访问路径。路径分析技术常用于进行改进站点的结构。如70%的用户访问/company/product时,是从/company开始,经过/company/new/company/products/company/product。此时可以将路径放在比较显著的地方,方便了用户访问,也提高了该产品的点击率。
  6.2 关联规则技术
  关联规则挖掘技术主要用于从用户访问序列数据库的序列项中挖掘出相关的规则,就是要挖掘出用户在一个访问期限(Session),从服务器上访问的页面文件之间的联系,这些页面之间并不存在直接的参引(Reference)关系。使用关联规则可以发展很多相关信息或产品服务。例如:某信息A和B,同时被很多用户浏览,则说明A和B有可能相关。同时点击的用户越多,其相关度就可能越高。系统可以利用这种思想为用户推荐相关信息或产品服务。如当当电子书店就采用了这一模式用以推荐相关书目。当你选择某本图书时,系统会自动给你推荐信息,告知“很多读者在购买此书时还购买的其他书目”。ACM数字图书馆也采用了这一思想,推出信息推荐服务“Peer to Peer”。
  6.3 序列模式挖掘技术
  序列模式数据挖掘技术就是要挖掘出交易集之间的有时间序列关系的模式。它与关联挖掘技术都是从用户访问下的日志中寻找用户普遍访问的规律,关联挖掘技术注重事务内的关系,而序列模式技术则注重事务之间的关系。发现序列模式,便于预测用户的访问模式,有助于开展基于这种模式的有针对性的广告服务。依赖于发现的关联规则和序列模式,能够在服务器方动态地创立特定的有针对性的页面,以满足访问者的特定需求。
  6.4 聚类分类技术
  分类规则可挖掘出某些共同的特性,而这一特性可对新添加到数据库中的数据项进行分类。在Web数据挖掘中,分类技术可根据访问用户而得到个人信息、共同的訪问模式以及访问某一服务器文件的用户特征。而聚类技术则是对符合某一访问规律特征的用户进行用户特征挖掘。发现分类规则可以识别一个特殊群体的公有属性的描述,这种描述可以用于分类新的检索。如政府机关的用户一般感兴趣的页面是/company/product。聚类可以从Web访问信息数据库中聚集出具有相似特性的用户群。在Web事务日记中聚类用户信息或数据项能够便于开发和执行未来的市场战略。这些事务信息可以用在:在找出用户共同兴趣后,进行合作式信息推荐,共同体的成员可以互相推荐新的滚动信息;自动给一个特定的用户聚类发送销售邮件,为用户聚类动态地改变一个特殊的站点等。
  
  7 Web挖掘的研究热点[6]
  
  在未来一段时间内,Web挖掘研究的焦点可能会集中到以下几个方面:
  1) 高性能Web搜索引擎。尽管搜索引擎性能已有了较大提高,但搜索引擎的最终目标是“理解用户需求精确返回所需”,如何翻译用户的非专业搜索请求,实现自然语言处理,涉及兴趣爬虫、元搜索引擎、垂直搜索、移动搜索和多媒体搜索等方面的研究。
  2) Web数据的特征描述与监控。如何表示Web文本内容的特征数据,如何表示和识别Web中的图像、flash等多媒体数据,进而进行网页分类、内容跟踪、过滤和报警等,对于不良网站的监控等有着积极意义。
  3) Web数据的获取与集成。包括Web文本特征的提取和表示,如何用一种广泛兼容的半结构化数据模型表示网页;如何抽取动态网页中的数据;如何在分布的Web中获取信息;如何在指定网页中快速定位所需的数据区;如何利用数据库和数据仓库技术查询和存储Web内容等。
  4) Web数据流挖掘。Web日志、cookie、点击流等流式数据量巨大,如何识别和过滤爬虫的访问信息;如何有效收集和处理日志以外的访问数据;如何有效标识用户、设置用户会话时间等。
  5) 安全与非法访问检测。如何评价Web数据信息本身的可靠和安全性;如何对Web内容、邮件、各种日志和用户访问行为的分析,识别出威胁、欺诈、入侵、无用的数据和异常行为,从而构建安全的网络环境。
  6) 个性化与安全隐患。如何跟踪、学习和表达多变的用户兴趣及行为模式,在个性化服务中过滤信息,实现商业应用,在提醒个性化服务时不侵犯用户隐私等都是亟待决的问题。
  7) 基于Web的模式分析技术和工具。如何将Web挖掘的结果在浏览器中可视化地表达,包括统计、关联、聚类、分类等工具开发等。
  8) Web挖掘的算法改进与质量评估。由于Web数据本身的特点,使得Web挖掘不能照搬数据挖掘的理论和技术,而需要对现有的算法等方面都进行改进。Web挖掘算法和挖掘系统的性能通常需要大量用户的反馈,实际运行测试,因而缺乏有效的评价模式。
  9) Web挖掘在社会领域的应用。Web已经是人类社会活动的一面镜子,如何在Web中发现社会现象、问题和热点的规律,为社会学家、经济学家、教育学者提供有价值的知识。
  此外,分布式Web挖掘、语义Web挖掘、无线网络下的Web挖掘、Web2.0时代的Web挖掘、多语言环境下的Web挖掘等是值得研究的方向。同时,Web挖掘技术应用于具体领域的研究将持续受到关注,例如,银行证券、企业ERP、医疗卫生、农业、电子商务、网络教学、BLOG等。
  
  8结束语
  
  Web挖掘技术是一个新兴的研究领域,对它的研究和应用正在成为一个热点。伴随着Internet的快速发展,Web挖掘技术的研究和发展将会迎来更好的契机。
  
  参考文献:
  [1]EtzioniO.The World Wide Web:Quagmire or goldmine[J]. Communication of the ACM, 1996, 39(11).
  [2]王玉珍.Web数据挖掘的分析与探索[J].计算机发展与应用,2003;(4).
  [3]张艺雪.Web上的数据挖掘及应用[J].信息科技,2007;(3)115-116.
  [4]Wang K , Zhou S, Liew S C. Building hierarchical classifiers using class proximity [C]. In: proc of VLDB’97, Edinburgh, UK, 1999:363-374.
  [5]Jaideep Srivastava, Robert Cooley, Mukund Deshpande, Pang-Ning Tan, Web Usage Mining: Discovery and Applications of Usage Patterns from Web Data[J].SIGKDD Explorations, Vol. 1, Issue 2, 2000.
  [6] 胡学钢 . Web挖掘研究综述[J]. 计算机应用研究, 2007,24 (6).
其他文献
摘要:通过介绍当前高等教育考试方法改革现状,构建一种基于c/s模式的网络考试管理系统,分析了系统构成和工作原理。并比C/S模式和B/S模式的特点。讨论了Socket套接字通信机制。
期刊
摘要:该文介绍了微型飞行器在空中所拍摄的经压缩后的Mpeg4图像信号与飞控计算机下行遥测数据的混合编码技术。提出并实现了一种改进的基于扩展频谱的视频编码方案。该视频编码方案在不降低视频质量的基础上,能够抵抗多种干扰和攻击。具有良好的稳定性和鲁棒性。
期刊
摘要:将RgPCA算法应用于表情图像的特征提取。其核心思想:先用PCA处理表情图像,提取表情特征;然后,将此表情特征集作为一个粗糙集用FAI算法进行约简,从而实现表情特征选择。RgPcA算法继承了PCA在特征提取时的简洁,并充分考虑模式分类的要求。提高了特征选择的科学性。
期刊
摘要:该文主要讨论的是无刷直流电动机启动仿真。首先建立了无刷直流电动机的数学模型,然后详细讨论了无刷直流电动机的三相导通三相星形六状态下磁势随电流流向的改变而改变的情形并给出了启动过程的动态仿真。最后给出了仿真的结果。该文还讨论了电动机参数改变情况下的仿真结果的变化。
期刊
摘要:近年来,大型金融企业制定IT发展核心战略,实现业务数据集中处理,保证数据大集中系统稳健运行。本文给出了详细的银行、金融机构信用卡系统解决方案,依托IBM 大型机建立高效、灵活并实时响应的技术平台,为广大用户群体提供强有力的业务支持。  关键词:z/OS;大型主机;信用卡  中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2009)15-3843-02    Credit
期刊
摘要:该文提出了一种基于DCT变换域的数字水印算法,主要思想是利用密钥分散将原始二值水印图像经Amold置乱加密后嵌入到原始图像中。并通过Madab实现了该算法。实验结果表明,该算法具有良好的不可感知性和鲁棒性,能有效抵抗裁剪、噪声等攻击。
期刊
摘要:简单分析Windows 下串口通信方式, 详细介绍了使用 串口通讯库PComm实现特殊波特率的方法。  关键词:串口;特殊波特率;PComm库  中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2009)15-3871-03    Realization of SpecialBaudRateBased on VC++  LIU Kui  (Zhejiang Textil
期刊
摘要:该文展示了EXCEL透视表与SQL SERVER、ACCESS相结合,利用广播电视大学教务管理信息系统数据资源,为电大的考务工作提供方便。  关键词:EXCEL;透视表;ACCESS;SQL SERVER;ODBC  中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2009)15-3864-03    The Use of SQL Server and Excel to
期刊
摘要:XML作为下一代的网络数据传输标准,对其的解析显得尤为重要。文章简要介绍了XML解析中的SAX解析技术,着重讨论了SAX中的设计模式。
期刊
摘要:介绍了离散余弦变换(DCT)的方法,并在MATLAB数学分析工具环境下,探讨了DCT在语音和图像信号变换及压缩中的应用。仿真实验表明,用MATLAB来实现DCT变换的语音和图像压缩,具有方法简单、速度快、误差小的优点,大大提高了数字信号压缩的效率和精度。
期刊