论文部分内容阅读
【摘要】网络的高速发展下,使得电子商务的传播和应用也更为广泛,客户和商家在挖掘技术的要求上也就有了更多的标准。现今,种类繁多又别具风格的动态结构站点已逐步替代了Web页面的静态结构。本文就电子商务如何在Web挖掘技术上的有效应用,做出相关论述。
【关键词】Web数据挖掘 电子商务 应用
【中图分类号】TP311 【文献标识码】A 【文章编号】1672-5158(2012)11-0065-01
随着电子商务的经济环境不断的发展和改善,企业的销售也开始向全球化进行发展,不再是以往只在本地某一区域内局限性较大的传统销售方式,它的整个销售过程借助网络得以实现。这就使得电子商务的关键在于如何对网站的进行有效利用。企业的发展状况取决于网站对广大用户是否做到了有效的吸引。企业的决策者为使企业能够提升自身的竞争力,扩大发展规模,在信息化网站上不断做出个性化和极具创意的版面和内容,以期能将更多的客户吸引,这当中,企业尤为注重的当属个性化的发展模式。怎样才能面对繁多的数据进行个性化数据的提取,是企业急需解决的问题,这时就产生了数据挖掘技术,本文现就介绍其在电子商务中的具体应用。
一、Web数据挖掘的概念
所谓Web数据挖掘,实在数据挖掘上的一个引申,不只是包括数据库,只要是能够在一起进行组织的任意数据集合,都可以作为数据挖掘的对象,比如万维网的信息资源。在数据挖掘技术中,Web数据挖掘作为其中一项必不可少的部分,主要是在训练样本中进行大范围收集,并有针对性的对信息资源在网络当中进行的提取。
二、Web数据挖掘的主要类型
Web数据挖掘任务具有多样性的特点,这取决于多样化的电子商务的Web信息。根据不同方式的Web处理对象,可以将其类型分为三种:其一是Web内容挖掘,其二是web结构挖掘,其三是Web使用模式挖掘,结构的具体分类(见图1)。
(一)Web内容挖掘
将所需要的数据和内容在网络中进行大量收集的过程成为Web内容挖掘,它能够分析信息间互相的联系,并把在网络数据中的无法显而易见的内容做进一步挖掘。把网络资源做形式上的划分,数据可以包括图像、音视频和文本等,所以,可以归纳为文本、多媒体挖掘这两种形式的Web内容挖掘。现在的挖掘技术虽然都还处在不断的研发与实践之中,但文本挖掘的便利性目前已经有目共睹。
(二)Web结构挖掘
对有实际价值含量的知识在Web页面内容上只能挖掘到一部分,页面结构中同样有着丰富的信息量。对web存在于暗处的结构模式的挖掘,正是web结构挖掘的目的所在,它主要XCWeb页面的超链接关系,以及文档的目录和内部结构进行相关挖掘,因此能归纳为超链接挖掘、内部挖掘以及URL挖掘。
(三)web使用模式挖掘
把Web服务器上用户进行常规访问时的历史记录做出挖掘,从而分析归纳出用户访问的内容和喜好,即为Web使用模式挖掘,它主要是从用户访问网络的行为数据上做出分析,了解用户的意图,能够在电子商务战略上提高大量的援助,挖掘模式上可分为个性化和一般访问模式挖掘两种形式。
三、Web数据挖掘的实现过程
Web数据挖掘的实现可分为四个方面,分别为:数据预处理、模式识别、模式分析和可视化,挖掘过程(见图2)。
(一)数据预处理。
数据预处理可分为数据清洗、用户识别、会话识别和路径补充:
(1)数据清洗
将无关于挖掘数据和数据源中多次储存的相同数据进行删减,对访问后的信息有没有完整记录做出判断,并处理用户在访问页面时出现的错误记录,是数据清洗的主要任务。用户访问网络的ID、IP地址、访问万维网页面的具体时间和方式、传输的相关数据等都记录于Web日志之中,但Web数据挖掘需要的信息只是当中的某些成分,
(2)用户识别
处理好数据清洗工作后,接下来的工作是用户识别。它主要通过用户的ID、注册时预留的个人资料和使用的系统终端等,来对用户做出是否是新手的判断。之后再根据用户等级的不同,把日志文件做出集中整合,使之互相分离。
(3)会话识别
完成了数据预处理和用户识别后,就要开始会话识别的工作。会话是同一用户进行页面持续的访问,当多个用户进行页面的访问时,便产生了会话的不同,把用户记录做独立性会话记录的划分,是会话识别的主要目的所在。
(4)路径补充
通过Web站点的拓扑结构,来分析页面的方法即为路径补充。当利用站点的拓扑结构,识别出本次用户请求的页面不存在超链接关系与之前请求的页面时,就能判定为不完整的路径。这是不妨将用户本次和上次访问的时间点,取其中点判定为访问补充页面的大体时间。例如,当用户访问页面x时没能够直接跳转到下级页面Y,这时用户通常情况下会使用返回上层的功能重新访问Web页,然后去做z页面的访问。因此,很有必要添加用户对w页面的访问记录,在Y页面和z页面之间。
(二)模式识别
数据进行完预处理工作之后,还要进一步在得到的事务数据库上做数据的挖掘工作:在形式上将要处理的数据转化成符合于挖掘技术的数据存储;数据挖掘算法的改进,做到科学、新颖、有效,使信息能更容易被理解。
(三)模式分析
模式分析主要是在模式上做出新颖的发现。订单数据库和Web服务器日志是模式分析的基础数据。它运用数据挖掘技术,从中获取到用户聚类的相关模式,分析用户购买过的数据库,从中发现被购买的物品间存在的关联。分析产生模式的同时还应及时对其做出更新,以使其实效性有所保障。
(四)可视化
是指通过图形界面的形式,运用可视化的方式将挖掘结果展示出来。挖掘的基础是被研究的业务对象,贯穿于全过程之中,更作为促使分析人员加快挖掘的进展和对挖掘结果进行检测的主要依据。另外要注意这一工作中需要很多人工的辅助。
四、结束语
如今,各大企业看到电子商务所具有的快速信息获取和跨地域性等优势,纷纷争相进行看展。通过Web挖掘技术的有效运用,能够将繁杂的电子商务中存在的信息变得简洁化、富有条理性,使用户获得更好的访问体验。Web数据挖掘技术在呈现突飞猛进的发展之势,具有很高的应用价值,相信会有更多的人加入到这一领域的研究当中。
【关键词】Web数据挖掘 电子商务 应用
【中图分类号】TP311 【文献标识码】A 【文章编号】1672-5158(2012)11-0065-01
随着电子商务的经济环境不断的发展和改善,企业的销售也开始向全球化进行发展,不再是以往只在本地某一区域内局限性较大的传统销售方式,它的整个销售过程借助网络得以实现。这就使得电子商务的关键在于如何对网站的进行有效利用。企业的发展状况取决于网站对广大用户是否做到了有效的吸引。企业的决策者为使企业能够提升自身的竞争力,扩大发展规模,在信息化网站上不断做出个性化和极具创意的版面和内容,以期能将更多的客户吸引,这当中,企业尤为注重的当属个性化的发展模式。怎样才能面对繁多的数据进行个性化数据的提取,是企业急需解决的问题,这时就产生了数据挖掘技术,本文现就介绍其在电子商务中的具体应用。
一、Web数据挖掘的概念
所谓Web数据挖掘,实在数据挖掘上的一个引申,不只是包括数据库,只要是能够在一起进行组织的任意数据集合,都可以作为数据挖掘的对象,比如万维网的信息资源。在数据挖掘技术中,Web数据挖掘作为其中一项必不可少的部分,主要是在训练样本中进行大范围收集,并有针对性的对信息资源在网络当中进行的提取。
二、Web数据挖掘的主要类型
Web数据挖掘任务具有多样性的特点,这取决于多样化的电子商务的Web信息。根据不同方式的Web处理对象,可以将其类型分为三种:其一是Web内容挖掘,其二是web结构挖掘,其三是Web使用模式挖掘,结构的具体分类(见图1)。
(一)Web内容挖掘
将所需要的数据和内容在网络中进行大量收集的过程成为Web内容挖掘,它能够分析信息间互相的联系,并把在网络数据中的无法显而易见的内容做进一步挖掘。把网络资源做形式上的划分,数据可以包括图像、音视频和文本等,所以,可以归纳为文本、多媒体挖掘这两种形式的Web内容挖掘。现在的挖掘技术虽然都还处在不断的研发与实践之中,但文本挖掘的便利性目前已经有目共睹。
(二)Web结构挖掘
对有实际价值含量的知识在Web页面内容上只能挖掘到一部分,页面结构中同样有着丰富的信息量。对web存在于暗处的结构模式的挖掘,正是web结构挖掘的目的所在,它主要XCWeb页面的超链接关系,以及文档的目录和内部结构进行相关挖掘,因此能归纳为超链接挖掘、内部挖掘以及URL挖掘。
(三)web使用模式挖掘
把Web服务器上用户进行常规访问时的历史记录做出挖掘,从而分析归纳出用户访问的内容和喜好,即为Web使用模式挖掘,它主要是从用户访问网络的行为数据上做出分析,了解用户的意图,能够在电子商务战略上提高大量的援助,挖掘模式上可分为个性化和一般访问模式挖掘两种形式。
三、Web数据挖掘的实现过程
Web数据挖掘的实现可分为四个方面,分别为:数据预处理、模式识别、模式分析和可视化,挖掘过程(见图2)。
(一)数据预处理。
数据预处理可分为数据清洗、用户识别、会话识别和路径补充:
(1)数据清洗
将无关于挖掘数据和数据源中多次储存的相同数据进行删减,对访问后的信息有没有完整记录做出判断,并处理用户在访问页面时出现的错误记录,是数据清洗的主要任务。用户访问网络的ID、IP地址、访问万维网页面的具体时间和方式、传输的相关数据等都记录于Web日志之中,但Web数据挖掘需要的信息只是当中的某些成分,
(2)用户识别
处理好数据清洗工作后,接下来的工作是用户识别。它主要通过用户的ID、注册时预留的个人资料和使用的系统终端等,来对用户做出是否是新手的判断。之后再根据用户等级的不同,把日志文件做出集中整合,使之互相分离。
(3)会话识别
完成了数据预处理和用户识别后,就要开始会话识别的工作。会话是同一用户进行页面持续的访问,当多个用户进行页面的访问时,便产生了会话的不同,把用户记录做独立性会话记录的划分,是会话识别的主要目的所在。
(4)路径补充
通过Web站点的拓扑结构,来分析页面的方法即为路径补充。当利用站点的拓扑结构,识别出本次用户请求的页面不存在超链接关系与之前请求的页面时,就能判定为不完整的路径。这是不妨将用户本次和上次访问的时间点,取其中点判定为访问补充页面的大体时间。例如,当用户访问页面x时没能够直接跳转到下级页面Y,这时用户通常情况下会使用返回上层的功能重新访问Web页,然后去做z页面的访问。因此,很有必要添加用户对w页面的访问记录,在Y页面和z页面之间。
(二)模式识别
数据进行完预处理工作之后,还要进一步在得到的事务数据库上做数据的挖掘工作:在形式上将要处理的数据转化成符合于挖掘技术的数据存储;数据挖掘算法的改进,做到科学、新颖、有效,使信息能更容易被理解。
(三)模式分析
模式分析主要是在模式上做出新颖的发现。订单数据库和Web服务器日志是模式分析的基础数据。它运用数据挖掘技术,从中获取到用户聚类的相关模式,分析用户购买过的数据库,从中发现被购买的物品间存在的关联。分析产生模式的同时还应及时对其做出更新,以使其实效性有所保障。
(四)可视化
是指通过图形界面的形式,运用可视化的方式将挖掘结果展示出来。挖掘的基础是被研究的业务对象,贯穿于全过程之中,更作为促使分析人员加快挖掘的进展和对挖掘结果进行检测的主要依据。另外要注意这一工作中需要很多人工的辅助。
四、结束语
如今,各大企业看到电子商务所具有的快速信息获取和跨地域性等优势,纷纷争相进行看展。通过Web挖掘技术的有效运用,能够将繁杂的电子商务中存在的信息变得简洁化、富有条理性,使用户获得更好的访问体验。Web数据挖掘技术在呈现突飞猛进的发展之势,具有很高的应用价值,相信会有更多的人加入到这一领域的研究当中。