论文部分内容阅读
[摘 要]本文首先探讨了电子商务推荐系统的定义和类型,然后分析了电子商务推荐系统的作用,最后在此基础上对基于关联规则推荐系统的实现进行了研究。
[关键词]电子商务;推荐系统;关联规则
[中图分类号]TP399 [文献标识码]A [文章编号]1005-6432(2008)52-0078-02
电子商务系统规模越来越大、商品越来越多,让用户拥有了更大选择空间。同时用户必须在大量的无关信息中找寻自己所需商品,这也增加了用户购买的难度。为了解决这种信息过载问题,有效地指导用户在电子商务系统中方便的购物,人们提出了电子商务个性化推荐系统技术。
1 电子商务推荐系统定义
电子商务推荐系统的定义为:“利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程。”推荐系统的当前工作就是根据一定的算法,给出对目标用户的推荐项目。在网上购物环境下的以商品为推荐对象,为用户推荐符合其兴趣爱好的各类产品,如各种书籍、音像等。这种推荐系统也称电子商务个性化推荐系统,简称电子商务推荐系统。
2 电子商务推荐系统的作用
商家通过推荐系统保持与客户的联系,提高电子商务系统的访问量,从而提高电子商务系统的销售能力。推荐系统主要通过如下三种途径增加销售:
2.1 将电子商务系统的浏览者转变为购买者
电子商务系统的访问者在浏览过程中经常并没有购买欲望,电子商务推荐系统能够挖掘出一些潜在用户,向他们推荐其感兴趣的商品,从而将一些网站商品的浏览者变成实际的购买者。
2.2 提高电子商务系统的交叉销售能力
电子商务推荐系统在用户购买过程中向其推荐其他有价值的商品,使用户购买自己确实需要但在购买过程中没有想到的商品。这种个性化电子商务能够发现用户的购买模式,减少用户冗余访问,从而有效提高电子商务系统的交叉销售能力。
2.3 建立和加强用户的忠诚度
如果电子商务推荐系统的推荐质量很高,那么用户会再次访问这个网站,并会推荐给其他人。由于这种“一对一”的服务,进一步吸引了用户,使用户在站点上逗留的时间加长,有效地防止用户离去,提高了用户对电子商务站点的忠诚度。
3 基于关联规则个性化商品推荐系统的实现
基于关联规则的推荐算法可以分为离线的关联规则推荐模型建立阶段和在线的关联规则推荐模型应用阶段。离线阶段使用各种关联规则挖掘算法建立关联规则推荐模型,这一步比较费时,但放在离线模块进行;在线阶段根据建立的关联规则推荐模型和用户的购买行为向用户提供实时的推荐服务。
3.1 关联规则
关联规则是一种发现数据集中项与项之间可能存在的相关性的挖掘技术。以下给出的数学模型用来描述关联规则的发现问题。设I={i1,i2,…,i m}是项目集合,其中的元素称为项(i t e m)。记D为交易(Tr a n s ac t ion)T的集合,这里交易T是项的集合,并且T?I。对应每一个交易有唯一的标识,如交易号,记作T I D。设X是一个I中项的集合,如果X?T,那么称交易T包含X。一个关联规则是形如X?Y的蕴涵式,这里X?I,Y?I,并且X∩Y=φ。规则X?Y在交易数据库D中的支持度(S u p p o r t)是交易集中包含X和Y的交易数与所有交易数之比,记为s u p p o r t(X?Y),即s u p p o r t(X?Y)=|{T:X∪Y?T,T∈D}|/|D|规则X?Y在交易集中的可信度(C o n f i d e n c e)是指包含X和Y的交易数与包含X的交易数之比,记为c o n f i d e n c e(X?Y),即c o n f i d e n c e(X?Y)=|{T: X∪Y?T,T∈D}|/|{T:X?T,T∈D}|给定一个交易集D,挖掘关联规则问题就是产生支持度和可信度分别大于用户给定的最小支持度(Mi ns upp)和最小可信度(M i n c o n f)的关联规则。可信度说明了蕴涵的强度,而支持度说明了规则中所出现模式的频率。具有高可信度和强支持度的规则称为“强规则”(S t r o n gRu l e s)。一般地,给定一个事务数据库,关联规则挖掘问题就是通过用户制定最小支持度和最小可信度来寻找强关联规则的过程。
3.2 模式产生
通过用户给定的最小支持度,寻找所有频繁项目集,即满足s upp or t不小于mi n s upp or t的所有项目子集。事实上,这些频繁项目集可能具有包含关系。算法实现的过程如下:首先产生频繁1-项集L1,然后是频繁2-项集L2,直到有某个r值使得L r为空,这时算法停止。这里在第k次循环中,过程先产生候选k-项集的集合C k,C k中的每一个项集是对两个只有一个项不同的属于L k-1的频集做一个(k-2)-连接来产生的。C k中的项集是用来产生频集的候选集,最后的频集L k必须是Ck的一个子集。Ck中的每个元素需在交易数据库中进行验证来决定其是否加入L k,这里的验证过程是算法性能的一个瓶颈。这个方法要求多次扫描可能很大的交易数据库,即如果频集最多包含10个项,那么就需要扫描交易数据库10遍,这需要很大的I/O负载。很明显,本算法有两个缺点:一是可能产生大量的候选集,二是可能需要重复扫描数据库。为此,可以引入修剪技术来减小候选集C k的大小,这样可以显著地改进生成所有频集算法的性能。经过挖掘发现的模式将按照结构化的方式存储在模式数据库中。一般地,我们只关心那些不被其他频繁项目集所包含的最大频繁项目集的集合。发现所有的频繁项目集是形成关联规则的基 础。
3.3 推荐过程
通过用户给定的最小可信度,在每个最大频繁项目集中,寻找confidence不小于Min confidence的关联规则。关联模式形成后,使用关联规则推荐算法用顾客原始交易记录作为数据源,通过数据预处理转换成标准顾客交易数据。产生top_n推荐的算法步骤如下:
(1)根据交易数据库中每个用户购买过的所有商品的历史交易数据创建每个用户的事务记录,构造事务数据库。
(2)使用关联规则挖掘算法对构造的事务数据库进行关联规则挖掘,记为关联规则集合R。
(3)对每个当前用户u,设置一个候选推荐集P u,并将候选推荐集Pu初始化为空。
(4)对每个当前用户u,搜索关联规则集合R,找出该用户支持的所有关联规则集合R I,即关联规则左部的所有商品出现在用户u的当前购买数据和历史交易记录中。
(5)将关联规则集合R I右部的所有商品加入候选推荐集Pu。
(6)从候选推荐集Pu删除用户已经购买过的商品。
(7)根据关联规则集合RI的置信度对候选推荐集Pu中所有候选项进行排序,如果一个项在多条关联规则中出现,则选择置信度最高的关联规则作为排序标准。
(8)从候选推荐集P u中选择置信度最高的前N个项作为推荐结果返回给当前用户u。
4 结束语
近几年来,随着电子商务的蓬勃发展,商家竞争的日趋激烈,电子商务推荐系统应运而生。通过推荐系统实现个性化服务已成为电子商务应用的一项新兴技术。关联规则作为数据挖掘的主要方法之一,也引起了人们越来越多的关注。我们相信,推荐系统技术的应用将使电子商务We b站点更人性化、更个性化、更能符合每个用户的喜好。
参考文献:
[1]Peltier·J·W,Schibmwsky·J·A,Schuhz·D·E,etal.Interactive psychographics:cross-selling in the bankingindustry[J].Journal of Advertising Research,2002,4(2):7-22.
[2]Kirchner·H,Tolle·K·K,Krieter·J.Decision treetechnique applied to pig farming data sets[J].LivestockProduction Science,2004,12(90):191-200.
[3]王飞.面向电子商务的web数据挖掘的研究与设计[D].四川大学硕士论文,2006:45-57.
[4]游文,叶水生.电子商务推荐系统中的协同过滤推荐[J].计算机技术与发展,2006,16(9):70-72.
[5]劉丽霞,庄奕琪.电子商务系统的数据挖掘与智能推荐预测的研究[J].计算机工程与科学,2008,30(2):92-95.
[关键词]电子商务;推荐系统;关联规则
[中图分类号]TP399 [文献标识码]A [文章编号]1005-6432(2008)52-0078-02
电子商务系统规模越来越大、商品越来越多,让用户拥有了更大选择空间。同时用户必须在大量的无关信息中找寻自己所需商品,这也增加了用户购买的难度。为了解决这种信息过载问题,有效地指导用户在电子商务系统中方便的购物,人们提出了电子商务个性化推荐系统技术。
1 电子商务推荐系统定义
电子商务推荐系统的定义为:“利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程。”推荐系统的当前工作就是根据一定的算法,给出对目标用户的推荐项目。在网上购物环境下的以商品为推荐对象,为用户推荐符合其兴趣爱好的各类产品,如各种书籍、音像等。这种推荐系统也称电子商务个性化推荐系统,简称电子商务推荐系统。
2 电子商务推荐系统的作用
商家通过推荐系统保持与客户的联系,提高电子商务系统的访问量,从而提高电子商务系统的销售能力。推荐系统主要通过如下三种途径增加销售:
2.1 将电子商务系统的浏览者转变为购买者
电子商务系统的访问者在浏览过程中经常并没有购买欲望,电子商务推荐系统能够挖掘出一些潜在用户,向他们推荐其感兴趣的商品,从而将一些网站商品的浏览者变成实际的购买者。
2.2 提高电子商务系统的交叉销售能力
电子商务推荐系统在用户购买过程中向其推荐其他有价值的商品,使用户购买自己确实需要但在购买过程中没有想到的商品。这种个性化电子商务能够发现用户的购买模式,减少用户冗余访问,从而有效提高电子商务系统的交叉销售能力。
2.3 建立和加强用户的忠诚度
如果电子商务推荐系统的推荐质量很高,那么用户会再次访问这个网站,并会推荐给其他人。由于这种“一对一”的服务,进一步吸引了用户,使用户在站点上逗留的时间加长,有效地防止用户离去,提高了用户对电子商务站点的忠诚度。
3 基于关联规则个性化商品推荐系统的实现
基于关联规则的推荐算法可以分为离线的关联规则推荐模型建立阶段和在线的关联规则推荐模型应用阶段。离线阶段使用各种关联规则挖掘算法建立关联规则推荐模型,这一步比较费时,但放在离线模块进行;在线阶段根据建立的关联规则推荐模型和用户的购买行为向用户提供实时的推荐服务。
3.1 关联规则
关联规则是一种发现数据集中项与项之间可能存在的相关性的挖掘技术。以下给出的数学模型用来描述关联规则的发现问题。设I={i1,i2,…,i m}是项目集合,其中的元素称为项(i t e m)。记D为交易(Tr a n s ac t ion)T的集合,这里交易T是项的集合,并且T?I。对应每一个交易有唯一的标识,如交易号,记作T I D。设X是一个I中项的集合,如果X?T,那么称交易T包含X。一个关联规则是形如X?Y的蕴涵式,这里X?I,Y?I,并且X∩Y=φ。规则X?Y在交易数据库D中的支持度(S u p p o r t)是交易集中包含X和Y的交易数与所有交易数之比,记为s u p p o r t(X?Y),即s u p p o r t(X?Y)=|{T:X∪Y?T,T∈D}|/|D|规则X?Y在交易集中的可信度(C o n f i d e n c e)是指包含X和Y的交易数与包含X的交易数之比,记为c o n f i d e n c e(X?Y),即c o n f i d e n c e(X?Y)=|{T: X∪Y?T,T∈D}|/|{T:X?T,T∈D}|给定一个交易集D,挖掘关联规则问题就是产生支持度和可信度分别大于用户给定的最小支持度(Mi ns upp)和最小可信度(M i n c o n f)的关联规则。可信度说明了蕴涵的强度,而支持度说明了规则中所出现模式的频率。具有高可信度和强支持度的规则称为“强规则”(S t r o n gRu l e s)。一般地,给定一个事务数据库,关联规则挖掘问题就是通过用户制定最小支持度和最小可信度来寻找强关联规则的过程。
3.2 模式产生
通过用户给定的最小支持度,寻找所有频繁项目集,即满足s upp or t不小于mi n s upp or t的所有项目子集。事实上,这些频繁项目集可能具有包含关系。算法实现的过程如下:首先产生频繁1-项集L1,然后是频繁2-项集L2,直到有某个r值使得L r为空,这时算法停止。这里在第k次循环中,过程先产生候选k-项集的集合C k,C k中的每一个项集是对两个只有一个项不同的属于L k-1的频集做一个(k-2)-连接来产生的。C k中的项集是用来产生频集的候选集,最后的频集L k必须是Ck的一个子集。Ck中的每个元素需在交易数据库中进行验证来决定其是否加入L k,这里的验证过程是算法性能的一个瓶颈。这个方法要求多次扫描可能很大的交易数据库,即如果频集最多包含10个项,那么就需要扫描交易数据库10遍,这需要很大的I/O负载。很明显,本算法有两个缺点:一是可能产生大量的候选集,二是可能需要重复扫描数据库。为此,可以引入修剪技术来减小候选集C k的大小,这样可以显著地改进生成所有频集算法的性能。经过挖掘发现的模式将按照结构化的方式存储在模式数据库中。一般地,我们只关心那些不被其他频繁项目集所包含的最大频繁项目集的集合。发现所有的频繁项目集是形成关联规则的基 础。
3.3 推荐过程
通过用户给定的最小可信度,在每个最大频繁项目集中,寻找confidence不小于Min confidence的关联规则。关联模式形成后,使用关联规则推荐算法用顾客原始交易记录作为数据源,通过数据预处理转换成标准顾客交易数据。产生top_n推荐的算法步骤如下:
(1)根据交易数据库中每个用户购买过的所有商品的历史交易数据创建每个用户的事务记录,构造事务数据库。
(2)使用关联规则挖掘算法对构造的事务数据库进行关联规则挖掘,记为关联规则集合R。
(3)对每个当前用户u,设置一个候选推荐集P u,并将候选推荐集Pu初始化为空。
(4)对每个当前用户u,搜索关联规则集合R,找出该用户支持的所有关联规则集合R I,即关联规则左部的所有商品出现在用户u的当前购买数据和历史交易记录中。
(5)将关联规则集合R I右部的所有商品加入候选推荐集Pu。
(6)从候选推荐集Pu删除用户已经购买过的商品。
(7)根据关联规则集合RI的置信度对候选推荐集Pu中所有候选项进行排序,如果一个项在多条关联规则中出现,则选择置信度最高的关联规则作为排序标准。
(8)从候选推荐集P u中选择置信度最高的前N个项作为推荐结果返回给当前用户u。
4 结束语
近几年来,随着电子商务的蓬勃发展,商家竞争的日趋激烈,电子商务推荐系统应运而生。通过推荐系统实现个性化服务已成为电子商务应用的一项新兴技术。关联规则作为数据挖掘的主要方法之一,也引起了人们越来越多的关注。我们相信,推荐系统技术的应用将使电子商务We b站点更人性化、更个性化、更能符合每个用户的喜好。
参考文献:
[1]Peltier·J·W,Schibmwsky·J·A,Schuhz·D·E,etal.Interactive psychographics:cross-selling in the bankingindustry[J].Journal of Advertising Research,2002,4(2):7-22.
[2]Kirchner·H,Tolle·K·K,Krieter·J.Decision treetechnique applied to pig farming data sets[J].LivestockProduction Science,2004,12(90):191-200.
[3]王飞.面向电子商务的web数据挖掘的研究与设计[D].四川大学硕士论文,2006:45-57.
[4]游文,叶水生.电子商务推荐系统中的协同过滤推荐[J].计算机技术与发展,2006,16(9):70-72.
[5]劉丽霞,庄奕琪.电子商务系统的数据挖掘与智能推荐预测的研究[J].计算机工程与科学,2008,30(2):92-95.