基于Web挖掘的电子商务应用研究

来源 :商场现代化 | 被引量 : 0次 | 上传用户:king_hxr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘要] 近年来,随着Internet/Web技术的快速普及和迅猛发展,使各种信息可以以非常低的成本在网络上获得,由于www在全球互连互通,可以从中取得的数据量难以计算,而且www的发展趋势继续看好,特别是电子商务的蓬勃发展为网络应用提供了强大支持,如何在www这个全球最大的数据集合中发现有用信息正在成为数据挖掘研究的热点。
  [关键词] web 数据挖掘 电子商务
  
  一、引言
  
  随着以数据库、数据仓库等数据仓储技术为基础的信息系统在各行各业的应用,使海量数据不断产生。随之而来的问题是如此多的数据让人难以消化,无法从表面上看出他们所蕴涵的有用信息。如何从大量的数据中找到真正有用的信息成为人们关注的焦点,数据挖掘技术也正是伴随着这种需求从研究走向应用。
  近年来,随着Internet/Web技术的快速普及和迅猛发展,使各种信息可以以非常低的成本在网络上获得,由于Internet/WWW在全球互连互通,可以从中取得的数据量难以计算,而且Internet/WWW的发展趋势继续看好,特别是电子商务的蓬勃发展为网络应用提供了强大支持,如何在WWW这个全球最大的数据集合中发现有用信息无疑将成为数据挖掘研究的热点。
  
  二、Web挖掘概述
  
  数据挖掘就是从数据库中抽取隐含的、以前未知的、具有潜在应用价值的信息的过程。Web挖掘是将数据挖掘的思想和方法应用到Web页面内容、页面之间的结构、用户访问信息等各种Web数据中,从中抽取隐含的、以前未知的、具有潜在应用价值的信息。Web挖掘对在浩瀚的网络中发现有价值的知识、改进网站设计、提供更好的网上服务有重要的作用。
  Web挖掘是针对包括Web页面内容,页面之间的结构,用户访问信息等在内的各种Web数据源。在一定基础上应用数据挖掘的方法以发现有用的隐含的知识的过程。Web挖掘与传统的数据挖掘相比有其自身的特点。Web本身是半结构化或无结构的数据,缺乏机器可理解的语义,Web挖掘的对象是大量,异质,分布的Web文档,对Web服务器上的日志、用户信息等数据所开展的挖掘工作也属于Web数据挖掘的范畴。Web信息的多样性决定了挖掘任务的多样性。按照Web处理对象的不同,一般将Web挖掘分为三类: Web内容挖掘,Web结构挖掘和Web使用记录挖掘。
  1.Web内容挖掘
  Web内容挖掘是指对Web页面及后台交易数据库进行挖掘,从Web文档内容及其描述中的内容信息中获取有价值的知识的过程。它是数据挖掘技术在网络信息处理上的应用,主要方法有IR(information retrieve)和数据库方法。它又可分为Web文本挖掘和Web多媒体挖掘两种数据挖掘方式。Web内容挖掘多为这种方式的挖掘,它和平常的平面文本挖掘的功能及方法比较类似。Web文档多为HTML、XML等自然语言,因此可利用Web文档中的标记,利用这些信息可以提高Web文本挖掘的性能。在对Web文档进行分类分析中,可以基于一组预先分好的文档为每一类文档赋予一个类标签。由于超链接里包括了有关页面内容的高质量信息,因此可以利用这些信息对文档进行分类,并且这种分类比基于关键字的分类更加准确。随着网络带宽的扩大,多媒体信息在网上迅速增加,这对Web内容挖掘提出了新的要求。Web多媒体挖掘的挖掘主要是指基于音频的挖掘、基于图片的静态图像的挖掘和基于视频的动态图像的挖掘。
  2.Web结构挖掘
  Web结构挖掘是对Web的组织结构和链接关系进行挖掘,从人为的链接关系中获得有价值的知识。由于文档之间互连,WWW能提供除文档内容以外的有用信息。Web结构挖掘通过分析一个网页链接和被链接的网页数量和对象,建立Web自身的链接结构模式。这种模式可以用于网页分类,并由此获得有关不同页面间的相似度和关联度的信息。Web页面除了包含页面以外还包括一个页面指向另一个页面的超链接。超链接里包含大量人类潜在的语义,它可用于分析出权威性语义。当一个Web页面的作者建立指向另一个页面的指针时,可以看作是作者对另一个页面的注解,即对另一个页面的认可。把一个页面的来自不同作者的注解收集起来,可以用来反应页面的重要性。这样,Web结构挖掘有助于用户找到相关主题的权威站点。
  3.Web使用记录挖掘
  Web使用记录挖掘是对用户访问Web时在服务器上留下的访问记录进行挖掘。它通过挖掘Web日志文件及其相关数据来发现用户访问Web页面的模式,主要技术有Cookies和远程Agent技术。Web使用记录挖掘的对象不是网上的原始数据而是从用户和网络交互过程中抽取出来的二手数据。服务器上的日志文件包括所请求的URL、发送请求的IP和时间,这些日志提供了有关Web动态的丰富信息。因此提取用户留下的这些日志文件进行Web挖掘,提取有关用户的知识,对用户的访问行为、频度、内容进行分析,得到关于用户的行为和方式的模式,从而改进站点的结构,或为用户提供个性化服务。对用户使用记录进行挖掘的方法主要有两种。一种方法是通过对日志文件进行分析,包含两种方式,一是访问前先进行预处理,即将日志数据映射为关系表采用相应的数据挖掘技术,如关联规则或聚类规则来访问日志文件。二是对日志文件直接进行访问以获取用户的导航信息。二是通过对用户的点击事件的收集和分析来发现用户的导航行为。
  
  三、Web挖掘的主要技术
  
  Web数据挖掘中常用的技术有路径分析技术、关联规则、序列模式、分类聚类技术等。
  1.关联规则挖掘技术
  该技术主要用于从学习者访问序列数据库的序列项中挖掘出相关的规则。在Web数据挖掘中,关联规则挖掘就是要挖掘出学习者在一个访问期间(Session)从服务器问的页面/文件之间的联系,这些页面之间可能并不存在直接的参引(Reference) 关系。在网络日志数据的预处理过程中,将学习者访问的页面路径构成了学习者会话事务集,可以通过关联规则挖掘得到大量的学习者访问请求的URL之间的联系,并将挖掘出的规则按照不同的支持度和置信度进行取舍,从而保留一些有用的规则进行应用。
  2.序列模式挖掘技术
  序列模式数据挖掘就是要挖掘出交易集之间的有时间序列的模式。在网站服务器日志里,学习者的访问是以一段时间为单位记载的。经过数据净化和事件交易确认以后是一个间断的时间序列,这些序列反映了学习者一定的行为。在网络日志文件的预处理过程中,抽取了学习者对于每个URL浏览所耗用的时间,这种元数据从侧面描绘出每个学习者对于页面上承载的知识点的理解程度和思考难度,引用时间长的证明此页面承载的知识点比较难于理解。通过分析可以得出学习者对特定知识点的掌握程度。但由于网路线路的原因,致使学习者在提出URL请求后,很长时间才将相应的网页打开,所以这种由日志中记录的浏览时间所分析出的各种模式规则并不一定真实反映学习者的学习过程,所以我们利用序列模式挖掘方式预测出学习者后续要访问的页面集,然后将此页面集中的URL预先下载到本地计算机的缓存中去,从而降低了页面的打开时间,也就使得浏览时间的准确性和有效性得到了很大的提高。这种Web页面的预取技术是利用序列模式挖掘方法来实现的。
  3.聚类分类技术
  聚类技术可以将具有相同特征的数据项聚成一类。聚类分析模式就是将数据划分到不同的组或者簇中,组之间的差别尽可能的大,组内的差别尽可能的小,与一般认为通过学习者的固定信息进行的分类分析不同,聚类前并不知道将要划分成几个组和什么样的组,完全依靠服务器智能化的计算得出,因此聚类分析也可以称为无监督分类。通过聚类得出不同的类后,一旦某学习者的特征模式符合某个类后,推荐引擎自动将此学习者尚未访问的页面或者尚未进行的测试与练习推荐给学习者。这样就可以智能化地将处在不同学习阶段的学习者得到此类应该获得的学习和测试进程。
  4.路径分析技术
  用路径分析技术进行Web使用模式的数据挖掘时,最常用的是图。因为一个图代表了定义在网站上的页面之间的联系。图最直接的来源是网站结构图,网站上的页面定义成节点,页面之间的超链接定义成图中的边。其他的各式各样的图也都是建立在页面和页面之间联系或者是一定数量的学习者浏览页面顺序基础之上的。那么,基于Web使用模式的数据挖掘,就是从图中确定最频繁的路径访问模式或大的参引访问序列。
  
  四、Web挖掘在电子商务中的应用
  
  1.Web挖掘数据的来源
  在Web挖掘中,一个关键性步骤是为Web挖掘提供合适的数据即挖掘对象。同样,把Web挖掘技术应用到电子商务中,也需要选择合适的目标数据集合。电子商务网站每天都可能有上百万次的在线交易,生成大量的记录文件和登记表。这些数据具体分为以下几种:
  (1)服务器日志数据
  Web服务器日志记录了用户访问电子商务站点的浏览行为,是使用Web挖掘的主要数据来源。日志文件格式中最常用的公用日志格式(Common Log Format)提供了关于访问者物理访问站点的信息。
  (2)Cookie日志数据
  Cookie日志是服务器为了自动跟踪电子商务网站访问者而为单个浏览器生成的标志。用于自动标记和跟踪站点的访问者,并由客户端持有。Cookie通常存储的是类似于购物手推车状态信息或者客户最近连接电子商务网站所访问的网页等信息。在电子商务网站,存储在Cookie日志的数据主要是交易信息。
  (3)客户信息
  在电子商务的交易过程中,须经过银行的信用授权才能进行交易。在这一过程中,大量有关客户的个人资料等信息会传到电子商务网站。把这些数据经过清洗,然后存入网站的数据仓库中作为长期趋势的分析数据,供数据挖掘之用。所需的数据类型取决于在线购物时的商业类型和所使用的数据本身。
  (4)其他数据源
  电子商务是基于Internet进行各种交易的,在其上面有大量的异质数据源,里面隐含了大量的有价值的信息有待挖掘。可以利用智能Agent来进行抽取而获得有用的信息,有助于电子商务活动的开展。
  2.电子商务中Web挖掘的过程
  在电子商务环境下,主要的挖掘对象是服务器日志。其主要步骤如下。
  (1)数据预处理
  由于本地缓存、代理服务器、防火墙的存在,使得Web日志中的数据并不精确,直接进行挖掘有可能出现错误结果。因此首先对日志数据进行预处理,它包括数据净化、用户会话和事务识别等。数据清洗主要是删除与挖掘算法无关的记录、判断是否有重要的访问没有被记录;用户会话是一个用户在一定时间内请求的所有Web页面;事务识别主要是将页面访问序列划分为代表Web事务或用户会话的逻辑单元。
  (2)模式发现
  模式发现阶段是采用统计法、机器学习法等成熟技术,从Web使用记录中挖掘知识。与电子商务有关的模式发现的方法有统计分析、聚类规则和依赖性建模。统计分析是抽取有关电子商务网站访问者的最常用的方法。可以利用特征选择方法来分析网页,就能分析出网页的某个特征的点击流次数,根据获得的结果调整网页的内容和链接结构。聚类规则是从一组数据项中聚集出相似特征的一个聚类。在电子商务中,大致可分为两类聚类:用户聚类和网页聚类。利用聚类的规则可以分析顾客的信息便以开展电子商务活动。依赖性建模的目标是开发出一种能表达Web域中各变量显著依赖性的模型。这种模型是根据已存在的Web数据,然后抽象出这些数据内在关系的模型。模型的建立对增加网上产品的销量和改进用户导航的便利性都有很大的作用。除此以外,还有关联规则、分类、序列模式等其他的模式发现方法在电子商务的Web挖掘中有较大应用。
  (3)模式分析
  模式分析主要是采用合适的技术和工具,进行模式的分析来辅助分析人员的理解。最常见的模式分析方法是采用SQL查询语句进行分析。另一种分析方法是先将数据导入到多维数据立方体中,再利用OLAP工具进行分析并提供可视化的结果输出。设计出满足于不同客户群体需要的个性化网站,进而增加其竞争力是电子商务网站生存和发展的关键因素。
  把Web挖掘的思想和方法应用到电子商务中去,通过对用户访问行为、内容和频度的分析,就可以得到关于群体用户访问行为的信息。利用这些挖掘到的有价值的信息,电子商务网站可以有针对性的开展商务活动。因此,Web挖掘在电子商务领域有很大的应用前景。
  本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。
其他文献
[摘要]这篇文章将2007年上半年的物价上涨与上世纪80年代末和90年代中期的通货膨胀进行对比分析,认为收入分配不公是通货膨胀背后的深层原因。  [关键词]收入分配 通货膨胀 流动性过剩
期刊
[摘要] 电子商务在很大程度上改变了传统的贸易模式和形态,对各国调整传统的商业交易关系的法规提出了严峻的挑战;更为重要的是,电子商务在全球范围的迅速发展,也使人们充分认识到建立电子商务全球性技术标准和贸易法规的重要性。电子商务在WTO第一次部长会议上(1996年)被纳入多边贸易体制,我国加入WTO后,IT业的屏保将被打破。尚未完善的中国IT业,在经济全球化和信息化加速发展的背景下,在世界信息技术升
期刊
[摘要] 本文对我国汽车4S营销模式的现状进行扫描,指出存在的五大问题,对存在的问题进行分析,并对解决存在问题提出了建议和对策。  [关键词] 汽车产业 营销模式 汽车4S店    一、前言    汽车4S店是指将整车销售(sale)、零配件供应(spare part)、售后服务(service)、信息反馈(survey)四项功能集于一体的汽车服务企业。汽车4S营销模式上个世纪90年代中期从欧洲传
期刊
[摘要] 旅游购物作为旅游活动的重要组成部分,对增加旅游总收入、促进旅游业发展有着重要意义。旅游商品零售通路影响旅游者的购买决策和购物满意度,本文通过借鉴欧洲旅游商品施华洛世奇Swarovski零售通路的成功经验,提出旅游商品零售通路的若干策略,以期在理论研究和实践探索方面实现一定的突破。  [关键词] 旅游商品零售通路策略    一、旅游购物与旅游商品零售通路    旅游购物是旅游经济活动的重要
期刊
[摘要] 在电子商务中,根据客户的访问数据挖掘出有价值的信息,进而划分客户群体和发现潜在的客户,从而提升业绩,对电子商务网站有重要的意义。Web日志挖掘是数据挖掘在Web页面上的应用,文章对Web日志挖掘进行了介绍,给出了Web日志挖掘的步骤和方法,对Web日子挖掘工具进行了分析,并介绍了其在电子商务网站中的应用。  [关键词] 电子商务 数据挖掘 Web日志挖掘    一、引言    随着计算机
期刊
分销渠道是指产品在所有权转移过程所经过的各个环节连接起来形成的通路,这个通路是否顺畅,直接影响产品的销售。改革开放以来,我国农村商品流通渠道、经营方式呈现出多元化发展态势。成立于1989年的湖北富迪实业有限公司,是一家以连锁超市为主导产业,同时涉足食品加工、营销代理、休闲娱乐等领域的综合性公司,从1995年开始全力进军以农村市场为主体的“第三零售商业圈”,取得了巨大的成就,2006年销售总额突破1
期刊
[摘要] 随着中国加入WTO,全国各地专业商品市场发展迅速,其商业经营模式各具特色。汉正街商品市场经过几十年的发展,经营模式也经历了三个发展阶段,目前已面临二次创业的转型时期。本文主要以汉正街市场为例,分析了专业商品市场的经营模式,为汉正街和其他专业商品市场的发展提供借鉴。  [关键词] 经营模式专业商品市场汉正街市场    一、引言    当前,我国社会经济快速发展.各地专业商品市场为了适应经济
期刊
[摘要] 在高度信息化的社会环境下,拥有一款高效、易于维护和管理的国际贸易软件平台对于从事国际贸易的企业来说至关重要,关系到企业的生存与发展。本文正是在这种背景下详细介绍了基于J2EE架构和MVC模式的国际贸易业务平台的开发过程、具体功能及其实现,并阐述了利用J2EE技术构建外贸业务平台的优越性。  [关键词] J2EE 国际贸易 设计模式    一、引言    自2001年12月加入WTO,中国
期刊
[摘要] 本文从学术研究和实践应用两个角度方面出发,对《新经济环境下的企业战略管理研究》一书进行了全方位的评价,分析了该书的整体研究框架,就该书研究的创新之处和研究特色进行了阐述和评价。  [关键词] 企业 战略管理 研究  康健同志的学术专著《新经济环境下的企业战略管理研究》一书已由人民日报出版社正式出版了,我欣喜地看到企业战略管理学科的理论和实务又在当前新经济环境下诞生出了新的研究成果,特别值
期刊
[摘要] 薪酬问题实质上是薪酬结构的合理性问题,其根本保证在于一个组织的薪酬结构是否是建立在组织基本职位价值基础之上,是否以具体职位对组织核心能力贡献度高低为依据。F公司以平衡计分卡基本思想为指导,利用基准职位、核心能力、薪酬带三种开发工具,通过建立核心能力矩阵,对组织基本职位进行排位,在此基础上设计了基于平衡计分卡的薪酬结构,很好地解决了当前薪酬管理中存在的眼前利益和长远利益、内部利益和外部利益
期刊