论文部分内容阅读
摘 要:本文主要介绍电子商务中Web挖掘,尤其是Web使用挖掘的主要研究对象、研究方法,提出了电子商务个性聚类模型,即客户聚类及页面聚类的各种算法。随着电子商务的日益普及,对Web使用数据的处理也将不断受到人们的重视,而寻找更具有Robust(鲁棒性)的挖掘算法以及如何对挖掘的结果进行更深层次的评价正是目前我们研究的重点。
关键词:电子商务;Web数据;挖掘;研究等
一、电子商务中Web挖掘的发展状况
现阶段电子商务正在企业和商贸领域占据着越来越多的市场氛围,Web挖掘主要用于商品的市场定位和销售分析,以辅助制定市场策略,还可以用来分析购物模式,预测销售行情。同时世界上的主要数据库厂商也纷纷开始把数据挖掘功能集成到自己的产品中。IBM、Microsoft等大公司都在自己的产品或相应产品上增加了在线分析处理(OLAP)。IBM公司开发的QUEST和Intelligent Miner系统可以挖掘客户的购物行为模式。Microsoft公司日前发布了一个基于XML的数据访问协议,该协议能使开发商为各类客户和开发平台提供数据分析。XWL for Analysis是一个支持应用开发商将商业智能植入。NET Web服务的协议。随着OLE DB for OLAP(联机分析处理)和OLE DB for Data Mining(数据挖掘)的发展,该协议支持对Microsoft数据源的访问并支持基于Web的数据挖掘。我国在这一领域正处在研究开发阶段,应用和产品还相对滞后,但现在正在起步,因为这一新兴领域不但有很好的研究和应用前景,而且有很好的商业机会。
二、Web挖掘中的技术问题
根据挖掘的对象不同,我们可以把基于Web内容挖掘数据分为三大类:Web内容挖掘、Web结构挖掘、Web使用挖掘。Web使用挖掘也称为Web日志挖掘(Web Log Mining)。与前两种挖掘方式以网上的原始数据为挖掘对象不同,Web使用挖掘面对的是在用户和网络交互的过程中抽取出来的第二手数据。
Web使用挖掘将这些数据一记录到日志文件中,然后对积累起来的日志文件进行挖掘,从而了解用户的网络行为数据所具有的意义。在Web使用挖掘中,出于商业目的的考虑,网站的拥有者或者管理者经常会对网站的某些方面提出一些分析,比如:流量分析(点击量)、广告分析、网站出入口分析、访问路径分析、用户来源分析、浏览器和平台分析等等。就这些方面作进一步的智能分析,我们可以从中真正与数据挖掘相关的问题。
网页相关性分析:分析那些网页具有密切的关系,如果很多人具有a.html-b.html-c.html这样的访问模式,则我们可以认定a.html 和c.html之间有一定的关系,从而考虑是否在a.html上直接加上c.html的链接。
用户访问模式分析:分析有哪一些网页,用户只要访问了其中的一页,则可以断定他也要访问其它的网页?即按不同的用户访问模式把网页分组,得到一个一个的兴趣点。哪些用户所访问网页组成比较类似(具有类似的兴趣)即根据用户行为的相似性把用户按行为模式分类。
用户归类:通过用户填写的信息如何把用户归入某一特定的类别,然后可对同一类别中的用户提供相似的服务。
三、电子商务中Web挖掘过程和方法
1、电子商务中Web挖掘的过程
在Internet电子商务中,客户浏览信息被Web服务器自动收集并保存在访问日志、引用日志和代理日志中。这些日志数据信息被组合应用计算机进行处、神经元网络、模型化算法和其它信息处理技术手段,进行分析加工,从中可以得到商家用于特定消费群体或个体进行定向营销的决策信息。同时有效地对这些Web日志进行定量分析,接示其中的关联关系、时序关系、页面类属关系、客户类型关系和频繁访问路径、频繁访问页面等,不但可为优化Web站点拓扑结构提供参考,而且还可为企业更有效地确认目标市场、改进决策获得更大的竞争优势提供帮助。
2、电子商务中Web挖掘的方法
(1)预处理。预处理主要有两部分构成:数据清洗(data cleaning)和事务识别(transaction identification) 。包括对Web日志进行清洗、过滤和转换以及无关记录的剔除,判断是否有重要的访问没有被记录,并从中抽取感兴趣的数据;并将URL、资源的类型、大小、请求的时间、在资源上停留的时间、请求者的Internet域名、用户、服务器状态作为数据cube的维数变量;再将对模块、页面和文件的请求次数,来自不同Internet域名请求次数、事件、会话、带宽、错误次数、不同浏览器种类、用户所在组织作为度量变量建立data cube;而将文件、图像脚本及多媒体等其它文件转换成可用于Web使用挖掘的数据格式,从而可将数据挖掘技术用于Web流量分析、典型的事件序列分析和用户行为模式分析及事务分析。
(2)模式发现。用户访问模式的发现,可采用统计学(statistics)、模式识别(model identification)、人工智能(A I)、数据挖掘(data mining)等领域的成熟技术在Web使用记录中挖掘知识。这些从其它领域移植到Web挖掘的技术,仍需要对Web挖掘领域的特点做出相应的修改和完善才能进行成功移植。在经过数据预处理阶段后,即可根据不同的需求选择模式发现技术。
(3)模式分析。Web使用挖掘中的模式分析,主要是为了在模式发现算法找到的模式集合中发现有趣模式。开发各种Web分析技术和工具,可辅助分析人员加深理解并使各种挖掘方法得到的模式获得充分利用。
关键词:电子商务;Web数据;挖掘;研究等
一、电子商务中Web挖掘的发展状况
现阶段电子商务正在企业和商贸领域占据着越来越多的市场氛围,Web挖掘主要用于商品的市场定位和销售分析,以辅助制定市场策略,还可以用来分析购物模式,预测销售行情。同时世界上的主要数据库厂商也纷纷开始把数据挖掘功能集成到自己的产品中。IBM、Microsoft等大公司都在自己的产品或相应产品上增加了在线分析处理(OLAP)。IBM公司开发的QUEST和Intelligent Miner系统可以挖掘客户的购物行为模式。Microsoft公司日前发布了一个基于XML的数据访问协议,该协议能使开发商为各类客户和开发平台提供数据分析。XWL for Analysis是一个支持应用开发商将商业智能植入。NET Web服务的协议。随着OLE DB for OLAP(联机分析处理)和OLE DB for Data Mining(数据挖掘)的发展,该协议支持对Microsoft数据源的访问并支持基于Web的数据挖掘。我国在这一领域正处在研究开发阶段,应用和产品还相对滞后,但现在正在起步,因为这一新兴领域不但有很好的研究和应用前景,而且有很好的商业机会。
二、Web挖掘中的技术问题
根据挖掘的对象不同,我们可以把基于Web内容挖掘数据分为三大类:Web内容挖掘、Web结构挖掘、Web使用挖掘。Web使用挖掘也称为Web日志挖掘(Web Log Mining)。与前两种挖掘方式以网上的原始数据为挖掘对象不同,Web使用挖掘面对的是在用户和网络交互的过程中抽取出来的第二手数据。
Web使用挖掘将这些数据一记录到日志文件中,然后对积累起来的日志文件进行挖掘,从而了解用户的网络行为数据所具有的意义。在Web使用挖掘中,出于商业目的的考虑,网站的拥有者或者管理者经常会对网站的某些方面提出一些分析,比如:流量分析(点击量)、广告分析、网站出入口分析、访问路径分析、用户来源分析、浏览器和平台分析等等。就这些方面作进一步的智能分析,我们可以从中真正与数据挖掘相关的问题。
网页相关性分析:分析那些网页具有密切的关系,如果很多人具有a.html-b.html-c.html这样的访问模式,则我们可以认定a.html 和c.html之间有一定的关系,从而考虑是否在a.html上直接加上c.html的链接。
用户访问模式分析:分析有哪一些网页,用户只要访问了其中的一页,则可以断定他也要访问其它的网页?即按不同的用户访问模式把网页分组,得到一个一个的兴趣点。哪些用户所访问网页组成比较类似(具有类似的兴趣)即根据用户行为的相似性把用户按行为模式分类。
用户归类:通过用户填写的信息如何把用户归入某一特定的类别,然后可对同一类别中的用户提供相似的服务。
三、电子商务中Web挖掘过程和方法
1、电子商务中Web挖掘的过程
在Internet电子商务中,客户浏览信息被Web服务器自动收集并保存在访问日志、引用日志和代理日志中。这些日志数据信息被组合应用计算机进行处、神经元网络、模型化算法和其它信息处理技术手段,进行分析加工,从中可以得到商家用于特定消费群体或个体进行定向营销的决策信息。同时有效地对这些Web日志进行定量分析,接示其中的关联关系、时序关系、页面类属关系、客户类型关系和频繁访问路径、频繁访问页面等,不但可为优化Web站点拓扑结构提供参考,而且还可为企业更有效地确认目标市场、改进决策获得更大的竞争优势提供帮助。
2、电子商务中Web挖掘的方法
(1)预处理。预处理主要有两部分构成:数据清洗(data cleaning)和事务识别(transaction identification) 。包括对Web日志进行清洗、过滤和转换以及无关记录的剔除,判断是否有重要的访问没有被记录,并从中抽取感兴趣的数据;并将URL、资源的类型、大小、请求的时间、在资源上停留的时间、请求者的Internet域名、用户、服务器状态作为数据cube的维数变量;再将对模块、页面和文件的请求次数,来自不同Internet域名请求次数、事件、会话、带宽、错误次数、不同浏览器种类、用户所在组织作为度量变量建立data cube;而将文件、图像脚本及多媒体等其它文件转换成可用于Web使用挖掘的数据格式,从而可将数据挖掘技术用于Web流量分析、典型的事件序列分析和用户行为模式分析及事务分析。
(2)模式发现。用户访问模式的发现,可采用统计学(statistics)、模式识别(model identification)、人工智能(A I)、数据挖掘(data mining)等领域的成熟技术在Web使用记录中挖掘知识。这些从其它领域移植到Web挖掘的技术,仍需要对Web挖掘领域的特点做出相应的修改和完善才能进行成功移植。在经过数据预处理阶段后,即可根据不同的需求选择模式发现技术。
(3)模式分析。Web使用挖掘中的模式分析,主要是为了在模式发现算法找到的模式集合中发现有趣模式。开发各种Web分析技术和工具,可辅助分析人员加深理解并使各种挖掘方法得到的模式获得充分利用。