论文部分内容阅读
[摘要]利用数据挖掘技术,挖掘出关联规则,用关联规则发现BBS用户站点的链接途径,推测BBS用户感兴趣的版面信息,建立不同用户的BBS访问模式,指导BBS针对不同用户进行站点调节,实现BBS的个性化服务。
[关键词]数据挖掘 关联规则 BBS 个性化服务
中图分类号:TU3 文献标识码:A 文章编号:1671-7597(2008)1010085-01
一、BBS个性化服务产生的背景
伴随Internet应用的迅速发展,Internet已成为最大的分布式信息数据库,各种各样的信息迅速增长,使Internet数据库呈现海量、复杂、动态等特性,这给Internet 用户寻找感兴趣的信息增加了难度,造成了用户信息迷失。近年来,研究者们已经提出各种方法来解决这些问题,例如:机器学习、信息检索、人工智能、数据管理等,然而随着网络资源的不断丰富和网络信息量的不断膨胀,信息搜索缺乏精准性,更没有考虑用户浏览的兴趣爱好。为了有效地解决这些问题,网络个性化服务被迅速提出。本文对用数据挖掘的关联分析实现BBS系统个性化服务作了初浅的分析。
二、数据挖掘技术简介
数据挖掘是在大型数据库中自动发现信息的过程,综合了统计学、人工智能、模式识别、并行计算、机器学习、数据库等多门学科,把数据分析和复杂数据的算法结合起来实现数据的自动搜索,发现有价值的信息,给商业企业和网络的个性化提供决策依据。数据挖掘的形式很多,其中关联规则的数据挖掘是网络个性化服务的核心技术。为了说明关联规则挖掘,采用一个典型的购物篮数据来说明。购物篮数据见表2.1,TID为一个数据信息标识。
(一)关联数据挖掘的相关术语
购物篮数据用二元形式来表示,其中每行对应一个事务,每列对应一个项。如果项在事务中出现,它的值为1,否则为0。令
是购物篮数据中所有项的集合,而是所有事务的集合,每个事务包含的项集都是的子集。在关联分析中,包含0个或多个项的集合被称为项集{itemest}。如果一个项集包含K个项,就称K项集。例如{啤酒、尿布、牛奶}是一个3项集。事务的宽度定义为事务中出现项的个数。如果项集X是事务的子集,则称事物包括项集X。例如表中第二个事务包括项集{面包、尿布},但不包括项集{面包、牛奶}。项集的一个重要性质是它的支持度计数,即包含特定项集的事物个数。
数学上,项集的支持度计数可以表示为: ,其中符号|.|表示集合中元素的个数。例如在表中2.1,项集{啤酒、尿布、牛奶}的支持度计数为2,因为只有两个事务同时包含了这三项。
(二)数据挖掘中的关联分析
关联规则数据挖掘目的就是发现关联规则。关联规则是形如X→Y的蕴含表达式子,其中X∩Y=Ø。它用支持度和置信度两个参数来衡量关联规则的有效性和可靠性,支持度很低的规则代表着一种偶然事件,是没有使用价值的,同时置信度低的规则作出的推论,可靠性就不高。因此只有具有一定支持度和置信度的关联规则才是可用的。在大型数据库中挖掘出不同事物数据库X和Y之间的某种关联特征,简单说就是挖掘Y在包含X的事务中出现的具有统计特性的事件,然后在这些统计事件中提取大概率事件,也就是关联规则。再利用关联规则作出预测,形成科学决策的依据。在电子商务中,它可以成为商业企业商品销售的秘诀;在网络的个性化服务中,它可以成为BBS个性化的依据。关联数据挖掘的过程见图2.1。
三、BBS系统个性化的实现
个性化服务是针对不同用户提供不同的服务策略和服务内容,BBS个性化服务实质上就是数据挖掘技术同Web的结合,进行Web数据挖掘。一般BBS用户浏览的过程可以简单的描述为:用户登录BBS网站访问网页,一段时间后结束,站点数据信息处理获取此过程中用户访问站点的信息,并对用户的站点信息进行数据挖掘分析,找出用户浏览不同信息库之间的关联性,从这些关联特征中发现用户的兴趣爱好和浏览方式,建立用户访问模型。它们可以帮助理解用户行为,改进站点结构以及为用户提供良好的个性化服务。BBS系统个性化服务从功能上可以分为三大模块,见个性化系框图3.1。这三大模块之间有着前继承和逆反馈的作用关系。
(一)数据预处理模块
这个模块包括数据的收集、清洗和确认等功能。首先进行的是数据收集。数据收集的直接来源是BBS服务器上的日志文件,它明确的记录了用户访问BBS的访问记录,包括日期、客户端、IP、用户ID、浏览请求、消、耗时和版面信息等;然后对这些数据清洗和筛选,剔除那些与数据挖掘需求无关的信息,保留IP、用户ID、浏览版面信息等重要信息,它们是形成BBS个性化服务的关键性数据;最后通过用户识别确认和路径修补,最大限度的提供用户对版面的链接途径和需求信息。
(二)数据挖掘模块
对预处理后的数据,进行挖掘分析,是BBS个性化服务的关键环节。在这个模块中,数据挖掘得出关联规则,即在预处理好的用户数据库中挖掘出具有统计特征的关联特性,并在其中发现有价值的关联规则,这就是数据挖掘的结果。利用这个结果可以比较客观的推测用户在网页浏览中关注的信息和它的浏览行为,再用这些分析指导站点结构的调整。
(三)站点调整模块
站点调整模块的功能是根据数据挖掘模块分析得出的用户访问模式信息,动态地调整站点的组织形式。该模块主要着眼于个性化服务的目标,实现用户访问版面的个性化调整。其中个性化调整主要通过以下方式实现:系统根据挖掘出的结果进行关联分析,预测用户经常喜爱访问的版面,并以增加版面链接的方式把这些版面链接在BBS页面上提供给用户,并且根据不同的注册用户,生成不同的用户页面,从而实现了BBS的个性化服务。
四、结束语
网络个性化服务是一个极具前瞻性的研究,特别在电子商务领域有着广阔的前景,数据挖掘技术和BBS系统结合,来实现网络的个性化服务是一个非常好的模式。但要想让网络个性化服务具有较高时效性,还有待于解决好很多方面的课题,比如数据挖掘算法的执行效率、网络个性化服务的内容和预选数据的选取等相关课题。
参考文献:
[1]Mike Perkowitz, Oren Etzioni. Towards Adaptive Web Sites-Conceptual Framework and Case Study[J]. Artificial Intelligence 2000(118): 245-2751.
[2]M.Eirinaki, M.Vazirgiannis. Webmining for Webpersonalization[J]. ACM TOIT. Feb.2003.3(1):2-27.
[3]陆汝钤,知识科学与计算科学[M].北京.清华大学出版社,2004.
[4]张海笑、徐小明,数据挖掘中分类方法的研究[J].山西电子技术,2005,(02):8-10.
[5]张云涛,数据挖掘原理与技术[M].电子工业出版社.2004.
注:“本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。”
[关键词]数据挖掘 关联规则 BBS 个性化服务
中图分类号:TU3 文献标识码:A 文章编号:1671-7597(2008)1010085-01
一、BBS个性化服务产生的背景
伴随Internet应用的迅速发展,Internet已成为最大的分布式信息数据库,各种各样的信息迅速增长,使Internet数据库呈现海量、复杂、动态等特性,这给Internet 用户寻找感兴趣的信息增加了难度,造成了用户信息迷失。近年来,研究者们已经提出各种方法来解决这些问题,例如:机器学习、信息检索、人工智能、数据管理等,然而随着网络资源的不断丰富和网络信息量的不断膨胀,信息搜索缺乏精准性,更没有考虑用户浏览的兴趣爱好。为了有效地解决这些问题,网络个性化服务被迅速提出。本文对用数据挖掘的关联分析实现BBS系统个性化服务作了初浅的分析。
二、数据挖掘技术简介
数据挖掘是在大型数据库中自动发现信息的过程,综合了统计学、人工智能、模式识别、并行计算、机器学习、数据库等多门学科,把数据分析和复杂数据的算法结合起来实现数据的自动搜索,发现有价值的信息,给商业企业和网络的个性化提供决策依据。数据挖掘的形式很多,其中关联规则的数据挖掘是网络个性化服务的核心技术。为了说明关联规则挖掘,采用一个典型的购物篮数据来说明。购物篮数据见表2.1,TID为一个数据信息标识。
(一)关联数据挖掘的相关术语
购物篮数据用二元形式来表示,其中每行对应一个事务,每列对应一个项。如果项在事务中出现,它的值为1,否则为0。令
是购物篮数据中所有项的集合,而是所有事务的集合,每个事务包含的项集都是的子集。在关联分析中,包含0个或多个项的集合被称为项集{itemest}。如果一个项集包含K个项,就称K项集。例如{啤酒、尿布、牛奶}是一个3项集。事务的宽度定义为事务中出现项的个数。如果项集X是事务的子集,则称事物包括项集X。例如表中第二个事务包括项集{面包、尿布},但不包括项集{面包、牛奶}。项集的一个重要性质是它的支持度计数,即包含特定项集的事物个数。
数学上,项集的支持度计数可以表示为: ,其中符号|.|表示集合中元素的个数。例如在表中2.1,项集{啤酒、尿布、牛奶}的支持度计数为2,因为只有两个事务同时包含了这三项。
(二)数据挖掘中的关联分析
关联规则数据挖掘目的就是发现关联规则。关联规则是形如X→Y的蕴含表达式子,其中X∩Y=Ø。它用支持度和置信度两个参数来衡量关联规则的有效性和可靠性,支持度很低的规则代表着一种偶然事件,是没有使用价值的,同时置信度低的规则作出的推论,可靠性就不高。因此只有具有一定支持度和置信度的关联规则才是可用的。在大型数据库中挖掘出不同事物数据库X和Y之间的某种关联特征,简单说就是挖掘Y在包含X的事务中出现的具有统计特性的事件,然后在这些统计事件中提取大概率事件,也就是关联规则。再利用关联规则作出预测,形成科学决策的依据。在电子商务中,它可以成为商业企业商品销售的秘诀;在网络的个性化服务中,它可以成为BBS个性化的依据。关联数据挖掘的过程见图2.1。
三、BBS系统个性化的实现
个性化服务是针对不同用户提供不同的服务策略和服务内容,BBS个性化服务实质上就是数据挖掘技术同Web的结合,进行Web数据挖掘。一般BBS用户浏览的过程可以简单的描述为:用户登录BBS网站访问网页,一段时间后结束,站点数据信息处理获取此过程中用户访问站点的信息,并对用户的站点信息进行数据挖掘分析,找出用户浏览不同信息库之间的关联性,从这些关联特征中发现用户的兴趣爱好和浏览方式,建立用户访问模型。它们可以帮助理解用户行为,改进站点结构以及为用户提供良好的个性化服务。BBS系统个性化服务从功能上可以分为三大模块,见个性化系框图3.1。这三大模块之间有着前继承和逆反馈的作用关系。
(一)数据预处理模块
这个模块包括数据的收集、清洗和确认等功能。首先进行的是数据收集。数据收集的直接来源是BBS服务器上的日志文件,它明确的记录了用户访问BBS的访问记录,包括日期、客户端、IP、用户ID、浏览请求、消、耗时和版面信息等;然后对这些数据清洗和筛选,剔除那些与数据挖掘需求无关的信息,保留IP、用户ID、浏览版面信息等重要信息,它们是形成BBS个性化服务的关键性数据;最后通过用户识别确认和路径修补,最大限度的提供用户对版面的链接途径和需求信息。
(二)数据挖掘模块
对预处理后的数据,进行挖掘分析,是BBS个性化服务的关键环节。在这个模块中,数据挖掘得出关联规则,即在预处理好的用户数据库中挖掘出具有统计特征的关联特性,并在其中发现有价值的关联规则,这就是数据挖掘的结果。利用这个结果可以比较客观的推测用户在网页浏览中关注的信息和它的浏览行为,再用这些分析指导站点结构的调整。
(三)站点调整模块
站点调整模块的功能是根据数据挖掘模块分析得出的用户访问模式信息,动态地调整站点的组织形式。该模块主要着眼于个性化服务的目标,实现用户访问版面的个性化调整。其中个性化调整主要通过以下方式实现:系统根据挖掘出的结果进行关联分析,预测用户经常喜爱访问的版面,并以增加版面链接的方式把这些版面链接在BBS页面上提供给用户,并且根据不同的注册用户,生成不同的用户页面,从而实现了BBS的个性化服务。
四、结束语
网络个性化服务是一个极具前瞻性的研究,特别在电子商务领域有着广阔的前景,数据挖掘技术和BBS系统结合,来实现网络的个性化服务是一个非常好的模式。但要想让网络个性化服务具有较高时效性,还有待于解决好很多方面的课题,比如数据挖掘算法的执行效率、网络个性化服务的内容和预选数据的选取等相关课题。
参考文献:
[1]Mike Perkowitz, Oren Etzioni. Towards Adaptive Web Sites-Conceptual Framework and Case Study[J]. Artificial Intelligence 2000(118): 245-2751.
[2]M.Eirinaki, M.Vazirgiannis. Webmining for Webpersonalization[J]. ACM TOIT. Feb.2003.3(1):2-27.
[3]陆汝钤,知识科学与计算科学[M].北京.清华大学出版社,2004.
[4]张海笑、徐小明,数据挖掘中分类方法的研究[J].山西电子技术,2005,(02):8-10.
[5]张云涛,数据挖掘原理与技术[M].电子工业出版社.2004.
注:“本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。”