论文部分内容阅读
[摘要] 近年来,随着Internet/Web技术的快速普及和迅猛发展,使各种信息可以以非常低的成本在网络上获得,由于www在全球互连互通,可以从中取得的数据量难以计算,而且www的发展趋势继续看好,特别是电子商务的蓬勃发展为网络应用提供了强大支持,如何在www这个全球最大的数据集合中发现有用信息正在成为数据挖掘研究的热点。
[关键词] web 数据挖掘 电子商务
一、引言
随着以数据库、数据仓库等数据仓储技术为基础的信息系统在各行各业的应用,使海量数据不断产生。随之而来的问题是如此多的数据让人难以消化,无法从表面上看出他们所蕴涵的有用信息。如何从大量的数据中找到真正有用的信息成为人们关注的焦点,数据挖掘技术也正是伴随着这种需求从研究走向应用。
近年来,随着Internet/Web技术的快速普及和迅猛发展,使各种信息可以以非常低的成本在网络上获得,由于Internet/WWW在全球互连互通,可以从中取得的数据量难以计算,而且Internet/WWW的发展趋势继续看好,特别是电子商务的蓬勃发展为网络应用提供了强大支持,如何在WWW这个全球最大的数据集合中发现有用信息无疑将成为数据挖掘研究的热点。
二、Web挖掘概述
数据挖掘就是从数据库中抽取隐含的、以前未知的、具有潜在应用价值的信息的过程。Web挖掘是将数据挖掘的思想和方法应用到Web页面内容、页面之间的结构、用户访问信息等各种Web数据中,从中抽取隐含的、以前未知的、具有潜在应用价值的信息。Web挖掘对在浩瀚的网络中发现有价值的知识、改进网站设计、提供更好的网上服务有重要的作用。
Web挖掘是针对包括Web页面内容,页面之间的结构,用户访问信息等在内的各种Web数据源。在一定基础上应用数据挖掘的方法以发现有用的隐含的知识的过程。Web挖掘与传统的数据挖掘相比有其自身的特点。Web本身是半结构化或无结构的数据,缺乏机器可理解的语义,Web挖掘的对象是大量,异质,分布的Web文档,对Web服务器上的日志、用户信息等数据所开展的挖掘工作也属于Web数据挖掘的范畴。Web信息的多样性决定了挖掘任务的多样性。按照Web处理对象的不同,一般将Web挖掘分为三类: Web内容挖掘,Web结构挖掘和Web使用记录挖掘。
1.Web内容挖掘
Web内容挖掘是指对Web页面及后台交易数据库进行挖掘,从Web文档内容及其描述中的内容信息中获取有价值的知识的过程。它是数据挖掘技术在网络信息处理上的应用,主要方法有IR(information retrieve)和数据库方法。它又可分为Web文本挖掘和Web多媒体挖掘两种数据挖掘方式。Web内容挖掘多为这种方式的挖掘,它和平常的平面文本挖掘的功能及方法比较类似。Web文档多为HTML、XML等自然语言,因此可利用Web文档中的标记,利用这些信息可以提高Web文本挖掘的性能。在对Web文档进行分类分析中,可以基于一组预先分好的文档为每一类文档赋予一个类标签。由于超链接里包括了有关页面内容的高质量信息,因此可以利用这些信息对文档进行分类,并且这种分类比基于关键字的分类更加准确。随着网络带宽的扩大,多媒体信息在网上迅速增加,这对Web内容挖掘提出了新的要求。Web多媒体挖掘的挖掘主要是指基于音频的挖掘、基于图片的静态图像的挖掘和基于视频的动态图像的挖掘。
2.Web结构挖掘
Web结构挖掘是对Web的组织结构和链接关系进行挖掘,从人为的链接关系中获得有价值的知识。由于文档之间互连,WWW能提供除文档内容以外的有用信息。Web结构挖掘通过分析一个网页链接和被链接的网页数量和对象,建立Web自身的链接结构模式。这种模式可以用于网页分类,并由此获得有关不同页面间的相似度和关联度的信息。Web页面除了包含页面以外还包括一个页面指向另一个页面的超链接。超链接里包含大量人类潜在的语义,它可用于分析出权威性语义。当一个Web页面的作者建立指向另一个页面的指针时,可以看作是作者对另一个页面的注解,即对另一个页面的认可。把一个页面的来自不同作者的注解收集起来,可以用来反应页面的重要性。这样,Web结构挖掘有助于用户找到相关主题的权威站点。
3.Web使用记录挖掘
Web使用记录挖掘是对用户访问Web时在服务器上留下的访问记录进行挖掘。它通过挖掘Web日志文件及其相关数据来发现用户访问Web页面的模式,主要技术有Cookies和远程Agent技术。Web使用记录挖掘的对象不是网上的原始数据而是从用户和网络交互过程中抽取出来的二手数据。服务器上的日志文件包括所请求的URL、发送请求的IP和时间,这些日志提供了有关Web动态的丰富信息。因此提取用户留下的这些日志文件进行Web挖掘,提取有关用户的知识,对用户的访问行为、频度、内容进行分析,得到关于用户的行为和方式的模式,从而改进站点的结构,或为用户提供个性化服务。对用户使用记录进行挖掘的方法主要有两种。一种方法是通过对日志文件进行分析,包含两种方式,一是访问前先进行预处理,即将日志数据映射为关系表采用相应的数据挖掘技术,如关联规则或聚类规则来访问日志文件。二是对日志文件直接进行访问以获取用户的导航信息。二是通过对用户的点击事件的收集和分析来发现用户的导航行为。
三、Web挖掘的主要技术
Web数据挖掘中常用的技术有路径分析技术、关联规则、序列模式、分类聚类技术等。
1.关联规则挖掘技术
该技术主要用于从学习者访问序列数据库的序列项中挖掘出相关的规则。在Web数据挖掘中,关联规则挖掘就是要挖掘出学习者在一个访问期间(Session)从服务器问的页面/文件之间的联系,这些页面之间可能并不存在直接的参引(Reference) 关系。在网络日志数据的预处理过程中,将学习者访问的页面路径构成了学习者会话事务集,可以通过关联规则挖掘得到大量的学习者访问请求的URL之间的联系,并将挖掘出的规则按照不同的支持度和置信度进行取舍,从而保留一些有用的规则进行应用。
2.序列模式挖掘技术
序列模式数据挖掘就是要挖掘出交易集之间的有时间序列的模式。在网站服务器日志里,学习者的访问是以一段时间为单位记载的。经过数据净化和事件交易确认以后是一个间断的时间序列,这些序列反映了学习者一定的行为。在网络日志文件的预处理过程中,抽取了学习者对于每个URL浏览所耗用的时间,这种元数据从侧面描绘出每个学习者对于页面上承载的知识点的理解程度和思考难度,引用时间长的证明此页面承载的知识点比较难于理解。通过分析可以得出学习者对特定知识点的掌握程度。但由于网路线路的原因,致使学习者在提出URL请求后,很长时间才将相应的网页打开,所以这种由日志中记录的浏览时间所分析出的各种模式规则并不一定真实反映学习者的学习过程,所以我们利用序列模式挖掘方式预测出学习者后续要访问的页面集,然后将此页面集中的URL预先下载到本地计算机的缓存中去,从而降低了页面的打开时间,也就使得浏览时间的准确性和有效性得到了很大的提高。这种Web页面的预取技术是利用序列模式挖掘方法来实现的。
3.聚类分类技术
聚类技术可以将具有相同特征的数据项聚成一类。聚类分析模式就是将数据划分到不同的组或者簇中,组之间的差别尽可能的大,组内的差别尽可能的小,与一般认为通过学习者的固定信息进行的分类分析不同,聚类前并不知道将要划分成几个组和什么样的组,完全依靠服务器智能化的计算得出,因此聚类分析也可以称为无监督分类。通过聚类得出不同的类后,一旦某学习者的特征模式符合某个类后,推荐引擎自动将此学习者尚未访问的页面或者尚未进行的测试与练习推荐给学习者。这样就可以智能化地将处在不同学习阶段的学习者得到此类应该获得的学习和测试进程。
4.路径分析技术
用路径分析技术进行Web使用模式的数据挖掘时,最常用的是图。因为一个图代表了定义在网站上的页面之间的联系。图最直接的来源是网站结构图,网站上的页面定义成节点,页面之间的超链接定义成图中的边。其他的各式各样的图也都是建立在页面和页面之间联系或者是一定数量的学习者浏览页面顺序基础之上的。那么,基于Web使用模式的数据挖掘,就是从图中确定最频繁的路径访问模式或大的参引访问序列。
四、Web挖掘在电子商务中的应用
1.Web挖掘数据的来源
在Web挖掘中,一个关键性步骤是为Web挖掘提供合适的数据即挖掘对象。同样,把Web挖掘技术应用到电子商务中,也需要选择合适的目标数据集合。电子商务网站每天都可能有上百万次的在线交易,生成大量的记录文件和登记表。这些数据具体分为以下几种:
(1)服务器日志数据
Web服务器日志记录了用户访问电子商务站点的浏览行为,是使用Web挖掘的主要数据来源。日志文件格式中最常用的公用日志格式(Common Log Format)提供了关于访问者物理访问站点的信息。
(2)Cookie日志数据
Cookie日志是服务器为了自动跟踪电子商务网站访问者而为单个浏览器生成的标志。用于自动标记和跟踪站点的访问者,并由客户端持有。Cookie通常存储的是类似于购物手推车状态信息或者客户最近连接电子商务网站所访问的网页等信息。在电子商务网站,存储在Cookie日志的数据主要是交易信息。
(3)客户信息
在电子商务的交易过程中,须经过银行的信用授权才能进行交易。在这一过程中,大量有关客户的个人资料等信息会传到电子商务网站。把这些数据经过清洗,然后存入网站的数据仓库中作为长期趋势的分析数据,供数据挖掘之用。所需的数据类型取决于在线购物时的商业类型和所使用的数据本身。
(4)其他数据源
电子商务是基于Internet进行各种交易的,在其上面有大量的异质数据源,里面隐含了大量的有价值的信息有待挖掘。可以利用智能Agent来进行抽取而获得有用的信息,有助于电子商务活动的开展。
2.电子商务中Web挖掘的过程
在电子商务环境下,主要的挖掘对象是服务器日志。其主要步骤如下。
(1)数据预处理
由于本地缓存、代理服务器、防火墙的存在,使得Web日志中的数据并不精确,直接进行挖掘有可能出现错误结果。因此首先对日志数据进行预处理,它包括数据净化、用户会话和事务识别等。数据清洗主要是删除与挖掘算法无关的记录、判断是否有重要的访问没有被记录;用户会话是一个用户在一定时间内请求的所有Web页面;事务识别主要是将页面访问序列划分为代表Web事务或用户会话的逻辑单元。
(2)模式发现
模式发现阶段是采用统计法、机器学习法等成熟技术,从Web使用记录中挖掘知识。与电子商务有关的模式发现的方法有统计分析、聚类规则和依赖性建模。统计分析是抽取有关电子商务网站访问者的最常用的方法。可以利用特征选择方法来分析网页,就能分析出网页的某个特征的点击流次数,根据获得的结果调整网页的内容和链接结构。聚类规则是从一组数据项中聚集出相似特征的一个聚类。在电子商务中,大致可分为两类聚类:用户聚类和网页聚类。利用聚类的规则可以分析顾客的信息便以开展电子商务活动。依赖性建模的目标是开发出一种能表达Web域中各变量显著依赖性的模型。这种模型是根据已存在的Web数据,然后抽象出这些数据内在关系的模型。模型的建立对增加网上产品的销量和改进用户导航的便利性都有很大的作用。除此以外,还有关联规则、分类、序列模式等其他的模式发现方法在电子商务的Web挖掘中有较大应用。
(3)模式分析
模式分析主要是采用合适的技术和工具,进行模式的分析来辅助分析人员的理解。最常见的模式分析方法是采用SQL查询语句进行分析。另一种分析方法是先将数据导入到多维数据立方体中,再利用OLAP工具进行分析并提供可视化的结果输出。设计出满足于不同客户群体需要的个性化网站,进而增加其竞争力是电子商务网站生存和发展的关键因素。
把Web挖掘的思想和方法应用到电子商务中去,通过对用户访问行为、内容和频度的分析,就可以得到关于群体用户访问行为的信息。利用这些挖掘到的有价值的信息,电子商务网站可以有针对性的开展商务活动。因此,Web挖掘在电子商务领域有很大的应用前景。
本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。
[关键词] web 数据挖掘 电子商务
一、引言
随着以数据库、数据仓库等数据仓储技术为基础的信息系统在各行各业的应用,使海量数据不断产生。随之而来的问题是如此多的数据让人难以消化,无法从表面上看出他们所蕴涵的有用信息。如何从大量的数据中找到真正有用的信息成为人们关注的焦点,数据挖掘技术也正是伴随着这种需求从研究走向应用。
近年来,随着Internet/Web技术的快速普及和迅猛发展,使各种信息可以以非常低的成本在网络上获得,由于Internet/WWW在全球互连互通,可以从中取得的数据量难以计算,而且Internet/WWW的发展趋势继续看好,特别是电子商务的蓬勃发展为网络应用提供了强大支持,如何在WWW这个全球最大的数据集合中发现有用信息无疑将成为数据挖掘研究的热点。
二、Web挖掘概述
数据挖掘就是从数据库中抽取隐含的、以前未知的、具有潜在应用价值的信息的过程。Web挖掘是将数据挖掘的思想和方法应用到Web页面内容、页面之间的结构、用户访问信息等各种Web数据中,从中抽取隐含的、以前未知的、具有潜在应用价值的信息。Web挖掘对在浩瀚的网络中发现有价值的知识、改进网站设计、提供更好的网上服务有重要的作用。
Web挖掘是针对包括Web页面内容,页面之间的结构,用户访问信息等在内的各种Web数据源。在一定基础上应用数据挖掘的方法以发现有用的隐含的知识的过程。Web挖掘与传统的数据挖掘相比有其自身的特点。Web本身是半结构化或无结构的数据,缺乏机器可理解的语义,Web挖掘的对象是大量,异质,分布的Web文档,对Web服务器上的日志、用户信息等数据所开展的挖掘工作也属于Web数据挖掘的范畴。Web信息的多样性决定了挖掘任务的多样性。按照Web处理对象的不同,一般将Web挖掘分为三类: Web内容挖掘,Web结构挖掘和Web使用记录挖掘。
1.Web内容挖掘
Web内容挖掘是指对Web页面及后台交易数据库进行挖掘,从Web文档内容及其描述中的内容信息中获取有价值的知识的过程。它是数据挖掘技术在网络信息处理上的应用,主要方法有IR(information retrieve)和数据库方法。它又可分为Web文本挖掘和Web多媒体挖掘两种数据挖掘方式。Web内容挖掘多为这种方式的挖掘,它和平常的平面文本挖掘的功能及方法比较类似。Web文档多为HTML、XML等自然语言,因此可利用Web文档中的标记,利用这些信息可以提高Web文本挖掘的性能。在对Web文档进行分类分析中,可以基于一组预先分好的文档为每一类文档赋予一个类标签。由于超链接里包括了有关页面内容的高质量信息,因此可以利用这些信息对文档进行分类,并且这种分类比基于关键字的分类更加准确。随着网络带宽的扩大,多媒体信息在网上迅速增加,这对Web内容挖掘提出了新的要求。Web多媒体挖掘的挖掘主要是指基于音频的挖掘、基于图片的静态图像的挖掘和基于视频的动态图像的挖掘。
2.Web结构挖掘
Web结构挖掘是对Web的组织结构和链接关系进行挖掘,从人为的链接关系中获得有价值的知识。由于文档之间互连,WWW能提供除文档内容以外的有用信息。Web结构挖掘通过分析一个网页链接和被链接的网页数量和对象,建立Web自身的链接结构模式。这种模式可以用于网页分类,并由此获得有关不同页面间的相似度和关联度的信息。Web页面除了包含页面以外还包括一个页面指向另一个页面的超链接。超链接里包含大量人类潜在的语义,它可用于分析出权威性语义。当一个Web页面的作者建立指向另一个页面的指针时,可以看作是作者对另一个页面的注解,即对另一个页面的认可。把一个页面的来自不同作者的注解收集起来,可以用来反应页面的重要性。这样,Web结构挖掘有助于用户找到相关主题的权威站点。
3.Web使用记录挖掘
Web使用记录挖掘是对用户访问Web时在服务器上留下的访问记录进行挖掘。它通过挖掘Web日志文件及其相关数据来发现用户访问Web页面的模式,主要技术有Cookies和远程Agent技术。Web使用记录挖掘的对象不是网上的原始数据而是从用户和网络交互过程中抽取出来的二手数据。服务器上的日志文件包括所请求的URL、发送请求的IP和时间,这些日志提供了有关Web动态的丰富信息。因此提取用户留下的这些日志文件进行Web挖掘,提取有关用户的知识,对用户的访问行为、频度、内容进行分析,得到关于用户的行为和方式的模式,从而改进站点的结构,或为用户提供个性化服务。对用户使用记录进行挖掘的方法主要有两种。一种方法是通过对日志文件进行分析,包含两种方式,一是访问前先进行预处理,即将日志数据映射为关系表采用相应的数据挖掘技术,如关联规则或聚类规则来访问日志文件。二是对日志文件直接进行访问以获取用户的导航信息。二是通过对用户的点击事件的收集和分析来发现用户的导航行为。
三、Web挖掘的主要技术
Web数据挖掘中常用的技术有路径分析技术、关联规则、序列模式、分类聚类技术等。
1.关联规则挖掘技术
该技术主要用于从学习者访问序列数据库的序列项中挖掘出相关的规则。在Web数据挖掘中,关联规则挖掘就是要挖掘出学习者在一个访问期间(Session)从服务器问的页面/文件之间的联系,这些页面之间可能并不存在直接的参引(Reference) 关系。在网络日志数据的预处理过程中,将学习者访问的页面路径构成了学习者会话事务集,可以通过关联规则挖掘得到大量的学习者访问请求的URL之间的联系,并将挖掘出的规则按照不同的支持度和置信度进行取舍,从而保留一些有用的规则进行应用。
2.序列模式挖掘技术
序列模式数据挖掘就是要挖掘出交易集之间的有时间序列的模式。在网站服务器日志里,学习者的访问是以一段时间为单位记载的。经过数据净化和事件交易确认以后是一个间断的时间序列,这些序列反映了学习者一定的行为。在网络日志文件的预处理过程中,抽取了学习者对于每个URL浏览所耗用的时间,这种元数据从侧面描绘出每个学习者对于页面上承载的知识点的理解程度和思考难度,引用时间长的证明此页面承载的知识点比较难于理解。通过分析可以得出学习者对特定知识点的掌握程度。但由于网路线路的原因,致使学习者在提出URL请求后,很长时间才将相应的网页打开,所以这种由日志中记录的浏览时间所分析出的各种模式规则并不一定真实反映学习者的学习过程,所以我们利用序列模式挖掘方式预测出学习者后续要访问的页面集,然后将此页面集中的URL预先下载到本地计算机的缓存中去,从而降低了页面的打开时间,也就使得浏览时间的准确性和有效性得到了很大的提高。这种Web页面的预取技术是利用序列模式挖掘方法来实现的。
3.聚类分类技术
聚类技术可以将具有相同特征的数据项聚成一类。聚类分析模式就是将数据划分到不同的组或者簇中,组之间的差别尽可能的大,组内的差别尽可能的小,与一般认为通过学习者的固定信息进行的分类分析不同,聚类前并不知道将要划分成几个组和什么样的组,完全依靠服务器智能化的计算得出,因此聚类分析也可以称为无监督分类。通过聚类得出不同的类后,一旦某学习者的特征模式符合某个类后,推荐引擎自动将此学习者尚未访问的页面或者尚未进行的测试与练习推荐给学习者。这样就可以智能化地将处在不同学习阶段的学习者得到此类应该获得的学习和测试进程。
4.路径分析技术
用路径分析技术进行Web使用模式的数据挖掘时,最常用的是图。因为一个图代表了定义在网站上的页面之间的联系。图最直接的来源是网站结构图,网站上的页面定义成节点,页面之间的超链接定义成图中的边。其他的各式各样的图也都是建立在页面和页面之间联系或者是一定数量的学习者浏览页面顺序基础之上的。那么,基于Web使用模式的数据挖掘,就是从图中确定最频繁的路径访问模式或大的参引访问序列。
四、Web挖掘在电子商务中的应用
1.Web挖掘数据的来源
在Web挖掘中,一个关键性步骤是为Web挖掘提供合适的数据即挖掘对象。同样,把Web挖掘技术应用到电子商务中,也需要选择合适的目标数据集合。电子商务网站每天都可能有上百万次的在线交易,生成大量的记录文件和登记表。这些数据具体分为以下几种:
(1)服务器日志数据
Web服务器日志记录了用户访问电子商务站点的浏览行为,是使用Web挖掘的主要数据来源。日志文件格式中最常用的公用日志格式(Common Log Format)提供了关于访问者物理访问站点的信息。
(2)Cookie日志数据
Cookie日志是服务器为了自动跟踪电子商务网站访问者而为单个浏览器生成的标志。用于自动标记和跟踪站点的访问者,并由客户端持有。Cookie通常存储的是类似于购物手推车状态信息或者客户最近连接电子商务网站所访问的网页等信息。在电子商务网站,存储在Cookie日志的数据主要是交易信息。
(3)客户信息
在电子商务的交易过程中,须经过银行的信用授权才能进行交易。在这一过程中,大量有关客户的个人资料等信息会传到电子商务网站。把这些数据经过清洗,然后存入网站的数据仓库中作为长期趋势的分析数据,供数据挖掘之用。所需的数据类型取决于在线购物时的商业类型和所使用的数据本身。
(4)其他数据源
电子商务是基于Internet进行各种交易的,在其上面有大量的异质数据源,里面隐含了大量的有价值的信息有待挖掘。可以利用智能Agent来进行抽取而获得有用的信息,有助于电子商务活动的开展。
2.电子商务中Web挖掘的过程
在电子商务环境下,主要的挖掘对象是服务器日志。其主要步骤如下。
(1)数据预处理
由于本地缓存、代理服务器、防火墙的存在,使得Web日志中的数据并不精确,直接进行挖掘有可能出现错误结果。因此首先对日志数据进行预处理,它包括数据净化、用户会话和事务识别等。数据清洗主要是删除与挖掘算法无关的记录、判断是否有重要的访问没有被记录;用户会话是一个用户在一定时间内请求的所有Web页面;事务识别主要是将页面访问序列划分为代表Web事务或用户会话的逻辑单元。
(2)模式发现
模式发现阶段是采用统计法、机器学习法等成熟技术,从Web使用记录中挖掘知识。与电子商务有关的模式发现的方法有统计分析、聚类规则和依赖性建模。统计分析是抽取有关电子商务网站访问者的最常用的方法。可以利用特征选择方法来分析网页,就能分析出网页的某个特征的点击流次数,根据获得的结果调整网页的内容和链接结构。聚类规则是从一组数据项中聚集出相似特征的一个聚类。在电子商务中,大致可分为两类聚类:用户聚类和网页聚类。利用聚类的规则可以分析顾客的信息便以开展电子商务活动。依赖性建模的目标是开发出一种能表达Web域中各变量显著依赖性的模型。这种模型是根据已存在的Web数据,然后抽象出这些数据内在关系的模型。模型的建立对增加网上产品的销量和改进用户导航的便利性都有很大的作用。除此以外,还有关联规则、分类、序列模式等其他的模式发现方法在电子商务的Web挖掘中有较大应用。
(3)模式分析
模式分析主要是采用合适的技术和工具,进行模式的分析来辅助分析人员的理解。最常见的模式分析方法是采用SQL查询语句进行分析。另一种分析方法是先将数据导入到多维数据立方体中,再利用OLAP工具进行分析并提供可视化的结果输出。设计出满足于不同客户群体需要的个性化网站,进而增加其竞争力是电子商务网站生存和发展的关键因素。
把Web挖掘的思想和方法应用到电子商务中去,通过对用户访问行为、内容和频度的分析,就可以得到关于群体用户访问行为的信息。利用这些挖掘到的有价值的信息,电子商务网站可以有针对性的开展商务活动。因此,Web挖掘在电子商务领域有很大的应用前景。
本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。