论文部分内容阅读
摘 要:本文提出了一种基于文本数据挖掘的个性化推荐算法,该算法在电子商务网站应用中,通过对服务器日志进行分析,跟踪单一用户的当前的浏览偏好,并根据当前偏好进行个性化商品信息的推荐,能够很好的解决传统算法中推荐信息滞后的尴尬问题。
关键词:文本挖掘;个性化推荐;层次聚类
一、引言
随着WEB2.0产品形式的进一步多样化,用户的行为可以更广泛的被获取并加以利用,所以使用文本挖掘方法的开始出现在电子商务网站的推荐中。此外,社交产品越来越受互联网用户的青睐,会产生大量的访问日志,再加上大规模数据处理和分析技术的发展,使得使用文本数据挖掘来分析用户个性化偏好变得更加现实。大数据的优势在于它能够及时的对用户行为数据进行高效的分析处理,并且目前相关的专家学者在此方面已经取得了突破性的成功[1]。本文在前人研究的基础之上,尝试结合电子商务网站,使用文本数据挖掘来对个性化推荐进行研究。主要针对用户的交易日志信息进行关键词提取,形成兴趣的关联规则,进一步采用聚类分析,最终给出相应的推荐结果。推荐结果的验证使用时效性、精准率和召回率等指标进行验证[2]。
二、文本词条获取
(一)服务器日志挖掘
所谓在电子商务平台上使用文本数据挖掘是指提取访客的页面访问日志,在其基础上对访问的一系列相关页面的核心主题关键词进行提取,以此来跟踪访客当前的兴趣行为偏好。首先对网站的页面结构进行分析。一般的电子商务网站页面有以下几个模块组成:菜单索引、商品详细展示、购物导航和服务信息说明等,在这些模块中对于跟踪访客行为偏好最有帮助的是商品信息展示,因为目前对词条提取技术只对文本内容進行获取,而这部分包含了商品的详细介绍,并且为了使商品在平台网站内能够更容易被检索出,该部分内容大都经过了迎合爬虫技术的优化[3],故该部分是被关注的重点。
其次是要对用户的交易事务进行提取,该部分主要包括数据过滤、用户识别和会话识别。数据过滤主要是清洗掉一些错误数据和一些无关的数据,比如访客的网络资源受限,请求的资源页面失败或者服务器并未将资源成功返回给访客,这些数据的提前清洗有利于减轻后续关联规则和聚类分析时的负荷。用户的识别本文使用目前最为主流的cookie技术用来跟踪单一访客,该技术实现的可行性高,唯一的缺点是用户有可能会关闭浏览器的cookie功能,如果这种情况出现,进而采用SessionID技术,该技术会动态的嵌入到访客访问中一个唯一标识,但他无法记录用户是否重复访问[4]。会话识别是指将用户的单一访问区分开来,目前的开发技术均使用的是单一访问模式,当用户登录后,服务器会自动的获取一个单一会话,并且服务器日志会跟踪记录该会话的活动,若超越30分钟无活动,将自动断开。本文也基于服务器默认的30分钟为期限划分会话。
(二)特征词条提取
文本挖掘最核心的第一项任务就是文本特征词条的提取,也就是对访客访问页面中的核心词汇的提取。例如,访客连续访问了一系列页面A1,A2,A3,…,An,通过对n个页面中每一个页面的核心词条的获取,可以掌握用户当前的行为偏好和偏好的时时变化。获取特征词条的第一步涉及到中文的分词技术。中文分词最大的难度在于消除歧义,中文语法中不同的断句会引来歧义。为了解决这一问题。目前中文分词应用最常规的方法是CRFs算法,他是在条件随机域算法CRF的技术上演变过来的[5]。
该模型算法能够很好的解决目前中文分词中所遇到的相关问,而该问题的解决也为进一步提取特征词条打下了良好的基础。由于词条出现在页面的不同位置,其重要程度具有很大差别,故需要提前划分好相应的位置权重。本文将一个完整的页面分为3个域:标题、内容和meta描述标签,分别对应的权重为0.5,0.3和0.2。进一步获取单一页面的特征词的加权排名,本文选取每个页面中排名的前六的词条来代表当前页面,过少的词条不足以代表整体页面,过多势必会加大算法的执行负荷。
三、特征词条聚类分析
经过对特征词条提取后,一个完整的交易事务已经转变为特征词条表示的词条组,多个交易事务放在一起会形成一个相关的矩阵。使用T={t1,t2,t3,…,tn}表示单一页面的特征词,一个完整的交易事务使用Page={p1,p2,p3,…,pm}表示,可以使用pi={tw,twtw,…tw,…tw}表示单一页面对特种词条的权重表示[6]。
聚类的目的是在相似性的基础之上将目标数据进行分类,把相似性接近的数据凝集在一起。当前的聚类方法有模糊聚类、层次聚类和密度聚类等,本文选择使用层次聚类,它也是目前在文本数据挖掘中使用较为广泛的一种方法[7]。算法描述如下。
第一步:假设共有类N个,每个类均有且仅有一个对象类成。按顺序为其编号m = 0,L(m)= 0。第二步:将距离矩阵命名为D,在D中寻找最小距离d[(r),(s)]= min d[(i),(j)]。第三步:将(r)和(s)合并成一个新类(r,s);令m = m +1,L(m)= d[(r),(s)]。第四步:更新距离矩阵D:将表示类(r)和类(s)的行列删除,同时加入表示新类(r,s)的行列;同时定义新类(r,s)与各旧类(k)的距离为d[(k),(r,s)]= min d[(k),(r)],d[(k),(s)]。第五步:反复步骤二到四,直到将所有的对象合并成一个新类为止。
通过层次聚类分析后可以找到兴趣点相近的用户群,再根据相似度计算可以将兴趣点相似的用户购买行为相互推荐。最后涉及到推荐结果排序的问题,首先推荐的结果中禁止出现用户已经购买过的产品,解决的方法是比照用户的购买结果和已加入购物车的商品清单,如有重复首先清洗。其次的推荐结果按照相似用户群中商品的相似度高低进行排序。为保证用户的满意度,选取适当的推荐数量即可,推荐商品数目过多,会导致推荐失真,过少会影响推荐结果的丰富程度。
四、总结
本文给出了一种基于文本数据挖掘的推荐算法,目的在于通过大数据分析处理来实时的跟踪用户行为,进一步解决传统基于关联规则推荐算法在出现推荐信息之后的问题。基于文本数据挖掘的算法的优势在于它是通过分析服务器交易日志,进一步对当前用户访问页面进行特征词条的获取,进而在层次聚类的基础上计算相似度,进行商品信息的推荐。这种方式不仅是电子商务平台中适用,也可以一直到互联网广告的个性化推荐中。
参考文献:
[1] 陈新中,李岩.Web挖掘研究[J].计算机工程与应用,2002
[2] 项亮.推荐系统实践[M].第1版.北京:人民邮电出版社,2012
[3] 张俊林.这就是搜索引擎:核心技术详解[M].北京:电子工业出版社,2012
[4] 易明.基于Web挖掘的电子商务个性化推荐机理与方法研究[D].武汉:华中科技大学,2009
[5] 韩雪冬.基于CRFs的中文分词算法研究与实现[D].北京:北京邮电大学,2010
[6] 邵康,张建伟.基于 BM25F 模型的 Web 文本挖掘个性化推荐研究[J].情报理论与实践,2013
[7] 周翔翔,姚佩阳,王欣.基于改进层次聚类法的指挥控制资源部署[J].系统工程与电子技术:2012
关键词:文本挖掘;个性化推荐;层次聚类
一、引言
随着WEB2.0产品形式的进一步多样化,用户的行为可以更广泛的被获取并加以利用,所以使用文本挖掘方法的开始出现在电子商务网站的推荐中。此外,社交产品越来越受互联网用户的青睐,会产生大量的访问日志,再加上大规模数据处理和分析技术的发展,使得使用文本数据挖掘来分析用户个性化偏好变得更加现实。大数据的优势在于它能够及时的对用户行为数据进行高效的分析处理,并且目前相关的专家学者在此方面已经取得了突破性的成功[1]。本文在前人研究的基础之上,尝试结合电子商务网站,使用文本数据挖掘来对个性化推荐进行研究。主要针对用户的交易日志信息进行关键词提取,形成兴趣的关联规则,进一步采用聚类分析,最终给出相应的推荐结果。推荐结果的验证使用时效性、精准率和召回率等指标进行验证[2]。
二、文本词条获取
(一)服务器日志挖掘
所谓在电子商务平台上使用文本数据挖掘是指提取访客的页面访问日志,在其基础上对访问的一系列相关页面的核心主题关键词进行提取,以此来跟踪访客当前的兴趣行为偏好。首先对网站的页面结构进行分析。一般的电子商务网站页面有以下几个模块组成:菜单索引、商品详细展示、购物导航和服务信息说明等,在这些模块中对于跟踪访客行为偏好最有帮助的是商品信息展示,因为目前对词条提取技术只对文本内容進行获取,而这部分包含了商品的详细介绍,并且为了使商品在平台网站内能够更容易被检索出,该部分内容大都经过了迎合爬虫技术的优化[3],故该部分是被关注的重点。
其次是要对用户的交易事务进行提取,该部分主要包括数据过滤、用户识别和会话识别。数据过滤主要是清洗掉一些错误数据和一些无关的数据,比如访客的网络资源受限,请求的资源页面失败或者服务器并未将资源成功返回给访客,这些数据的提前清洗有利于减轻后续关联规则和聚类分析时的负荷。用户的识别本文使用目前最为主流的cookie技术用来跟踪单一访客,该技术实现的可行性高,唯一的缺点是用户有可能会关闭浏览器的cookie功能,如果这种情况出现,进而采用SessionID技术,该技术会动态的嵌入到访客访问中一个唯一标识,但他无法记录用户是否重复访问[4]。会话识别是指将用户的单一访问区分开来,目前的开发技术均使用的是单一访问模式,当用户登录后,服务器会自动的获取一个单一会话,并且服务器日志会跟踪记录该会话的活动,若超越30分钟无活动,将自动断开。本文也基于服务器默认的30分钟为期限划分会话。
(二)特征词条提取
文本挖掘最核心的第一项任务就是文本特征词条的提取,也就是对访客访问页面中的核心词汇的提取。例如,访客连续访问了一系列页面A1,A2,A3,…,An,通过对n个页面中每一个页面的核心词条的获取,可以掌握用户当前的行为偏好和偏好的时时变化。获取特征词条的第一步涉及到中文的分词技术。中文分词最大的难度在于消除歧义,中文语法中不同的断句会引来歧义。为了解决这一问题。目前中文分词应用最常规的方法是CRFs算法,他是在条件随机域算法CRF的技术上演变过来的[5]。
该模型算法能够很好的解决目前中文分词中所遇到的相关问,而该问题的解决也为进一步提取特征词条打下了良好的基础。由于词条出现在页面的不同位置,其重要程度具有很大差别,故需要提前划分好相应的位置权重。本文将一个完整的页面分为3个域:标题、内容和meta描述标签,分别对应的权重为0.5,0.3和0.2。进一步获取单一页面的特征词的加权排名,本文选取每个页面中排名的前六的词条来代表当前页面,过少的词条不足以代表整体页面,过多势必会加大算法的执行负荷。
三、特征词条聚类分析
经过对特征词条提取后,一个完整的交易事务已经转变为特征词条表示的词条组,多个交易事务放在一起会形成一个相关的矩阵。使用T={t1,t2,t3,…,tn}表示单一页面的特征词,一个完整的交易事务使用Page={p1,p2,p3,…,pm}表示,可以使用pi={tw
聚类的目的是在相似性的基础之上将目标数据进行分类,把相似性接近的数据凝集在一起。当前的聚类方法有模糊聚类、层次聚类和密度聚类等,本文选择使用层次聚类,它也是目前在文本数据挖掘中使用较为广泛的一种方法[7]。算法描述如下。
第一步:假设共有类N个,每个类均有且仅有一个对象类成。按顺序为其编号m = 0,L(m)= 0。第二步:将距离矩阵命名为D,在D中寻找最小距离d[(r),(s)]= min d[(i),(j)]。第三步:将(r)和(s)合并成一个新类(r,s);令m = m +1,L(m)= d[(r),(s)]。第四步:更新距离矩阵D:将表示类(r)和类(s)的行列删除,同时加入表示新类(r,s)的行列;同时定义新类(r,s)与各旧类(k)的距离为d[(k),(r,s)]= min d[(k),(r)],d[(k),(s)]。第五步:反复步骤二到四,直到将所有的对象合并成一个新类为止。
通过层次聚类分析后可以找到兴趣点相近的用户群,再根据相似度计算可以将兴趣点相似的用户购买行为相互推荐。最后涉及到推荐结果排序的问题,首先推荐的结果中禁止出现用户已经购买过的产品,解决的方法是比照用户的购买结果和已加入购物车的商品清单,如有重复首先清洗。其次的推荐结果按照相似用户群中商品的相似度高低进行排序。为保证用户的满意度,选取适当的推荐数量即可,推荐商品数目过多,会导致推荐失真,过少会影响推荐结果的丰富程度。
四、总结
本文给出了一种基于文本数据挖掘的推荐算法,目的在于通过大数据分析处理来实时的跟踪用户行为,进一步解决传统基于关联规则推荐算法在出现推荐信息之后的问题。基于文本数据挖掘的算法的优势在于它是通过分析服务器交易日志,进一步对当前用户访问页面进行特征词条的获取,进而在层次聚类的基础上计算相似度,进行商品信息的推荐。这种方式不仅是电子商务平台中适用,也可以一直到互联网广告的个性化推荐中。
参考文献:
[1] 陈新中,李岩.Web挖掘研究[J].计算机工程与应用,2002
[2] 项亮.推荐系统实践[M].第1版.北京:人民邮电出版社,2012
[3] 张俊林.这就是搜索引擎:核心技术详解[M].北京:电子工业出版社,2012
[4] 易明.基于Web挖掘的电子商务个性化推荐机理与方法研究[D].武汉:华中科技大学,2009
[5] 韩雪冬.基于CRFs的中文分词算法研究与实现[D].北京:北京邮电大学,2010
[6] 邵康,张建伟.基于 BM25F 模型的 Web 文本挖掘个性化推荐研究[J].情报理论与实践,2013
[7] 周翔翔,姚佩阳,王欣.基于改进层次聚类法的指挥控制资源部署[J].系统工程与电子技术:2012