用数据挖掘技术实现BBS个性化服务

来源 :硅谷 | 被引量 : 0次 | 上传用户:wuyinfei1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘要]利用数据挖掘技术,挖掘出关联规则,用关联规则发现BBS用户站点的链接途径,推测BBS用户感兴趣的版面信息,建立不同用户的BBS访问模式,指导BBS针对不同用户进行站点调节,实现BBS的个性化服务。
  [关键词]数据挖掘 关联规则 BBS 个性化服务
  中图分类号:TU3 文献标识码:A 文章编号:1671-7597(2008)1010085-01
  
  一、BBS个性化服务产生的背景
  
  伴随Internet应用的迅速发展,Internet已成为最大的分布式信息数据库,各种各样的信息迅速增长,使Internet数据库呈现海量、复杂、动态等特性,这给Internet 用户寻找感兴趣的信息增加了难度,造成了用户信息迷失。近年来,研究者们已经提出各种方法来解决这些问题,例如:机器学习、信息检索、人工智能、数据管理等,然而随着网络资源的不断丰富和网络信息量的不断膨胀,信息搜索缺乏精准性,更没有考虑用户浏览的兴趣爱好。为了有效地解决这些问题,网络个性化服务被迅速提出。本文对用数据挖掘的关联分析实现BBS系统个性化服务作了初浅的分析。
  
  二、数据挖掘技术简介
  
  数据挖掘是在大型数据库中自动发现信息的过程,综合了统计学、人工智能、模式识别、并行计算、机器学习、数据库等多门学科,把数据分析和复杂数据的算法结合起来实现数据的自动搜索,发现有价值的信息,给商业企业和网络的个性化提供决策依据。数据挖掘的形式很多,其中关联规则的数据挖掘是网络个性化服务的核心技术。为了说明关联规则挖掘,采用一个典型的购物篮数据来说明。购物篮数据见表2.1,TID为一个数据信息标识。
  
  (一)关联数据挖掘的相关术语
   购物篮数据用二元形式来表示,其中每行对应一个事务,每列对应一个项。如果项在事务中出现,它的值为1,否则为0。令
  是购物篮数据中所有项的集合,而是所有事务的集合,每个事务包含的项集都是的子集。在关联分析中,包含0个或多个项的集合被称为项集{itemest}。如果一个项集包含K个项,就称K项集。例如{啤酒、尿布、牛奶}是一个3项集。事务的宽度定义为事务中出现项的个数。如果项集X是事务的子集,则称事物包括项集X。例如表中第二个事务包括项集{面包、尿布},但不包括项集{面包、牛奶}。项集的一个重要性质是它的支持度计数,即包含特定项集的事物个数。
  数学上,项集的支持度计数可以表示为: ,其中符号|.|表示集合中元素的个数。例如在表中2.1,项集{啤酒、尿布、牛奶}的支持度计数为2,因为只有两个事务同时包含了这三项。
  (二)数据挖掘中的关联分析
  关联规则数据挖掘目的就是发现关联规则。关联规则是形如X→Y的蕴含表达式子,其中X∩Y=Ø。它用支持度和置信度两个参数来衡量关联规则的有效性和可靠性,支持度很低的规则代表着一种偶然事件,是没有使用价值的,同时置信度低的规则作出的推论,可靠性就不高。因此只有具有一定支持度和置信度的关联规则才是可用的。在大型数据库中挖掘出不同事物数据库X和Y之间的某种关联特征,简单说就是挖掘Y在包含X的事务中出现的具有统计特性的事件,然后在这些统计事件中提取大概率事件,也就是关联规则。再利用关联规则作出预测,形成科学决策的依据。在电子商务中,它可以成为商业企业商品销售的秘诀;在网络的个性化服务中,它可以成为BBS个性化的依据。关联数据挖掘的过程见图2.1。
  
  三、BBS系统个性化的实现
  
  个性化服务是针对不同用户提供不同的服务策略和服务内容,BBS个性化服务实质上就是数据挖掘技术同Web的结合,进行Web数据挖掘。一般BBS用户浏览的过程可以简单的描述为:用户登录BBS网站访问网页,一段时间后结束,站点数据信息处理获取此过程中用户访问站点的信息,并对用户的站点信息进行数据挖掘分析,找出用户浏览不同信息库之间的关联性,从这些关联特征中发现用户的兴趣爱好和浏览方式,建立用户访问模型。它们可以帮助理解用户行为,改进站点结构以及为用户提供良好的个性化服务。BBS系统个性化服务从功能上可以分为三大模块,见个性化系框图3.1。这三大模块之间有着前继承和逆反馈的作用关系。
  
  (一)数据预处理模块
  这个模块包括数据的收集、清洗和确认等功能。首先进行的是数据收集。数据收集的直接来源是BBS服务器上的日志文件,它明确的记录了用户访问BBS的访问记录,包括日期、客户端、IP、用户ID、浏览请求、消、耗时和版面信息等;然后对这些数据清洗和筛选,剔除那些与数据挖掘需求无关的信息,保留IP、用户ID、浏览版面信息等重要信息,它们是形成BBS个性化服务的关键性数据;最后通过用户识别确认和路径修补,最大限度的提供用户对版面的链接途径和需求信息。
  (二)数据挖掘模块
  
  对预处理后的数据,进行挖掘分析,是BBS个性化服务的关键环节。在这个模块中,数据挖掘得出关联规则,即在预处理好的用户数据库中挖掘出具有统计特征的关联特性,并在其中发现有价值的关联规则,这就是数据挖掘的结果。利用这个结果可以比较客观的推测用户在网页浏览中关注的信息和它的浏览行为,再用这些分析指导站点结构的调整。
  (三)站点调整模块
  站点调整模块的功能是根据数据挖掘模块分析得出的用户访问模式信息,动态地调整站点的组织形式。该模块主要着眼于个性化服务的目标,实现用户访问版面的个性化调整。其中个性化调整主要通过以下方式实现:系统根据挖掘出的结果进行关联分析,预测用户经常喜爱访问的版面,并以增加版面链接的方式把这些版面链接在BBS页面上提供给用户,并且根据不同的注册用户,生成不同的用户页面,从而实现了BBS的个性化服务。
  
  四、结束语
  
  网络个性化服务是一个极具前瞻性的研究,特别在电子商务领域有着广阔的前景,数据挖掘技术和BBS系统结合,来实现网络的个性化服务是一个非常好的模式。但要想让网络个性化服务具有较高时效性,还有待于解决好很多方面的课题,比如数据挖掘算法的执行效率、网络个性化服务的内容和预选数据的选取等相关课题。
  
  参考文献:
  [1]Mike Perkowitz, Oren Etzioni. Towards Adaptive Web Sites-Conceptual Framework and Case Study[J]. Artificial Intelligence 2000(118): 245-2751.
  [2]M.Eirinaki, M.Vazirgiannis. Webmining for Webpersonalization[J]. ACM TOIT. Feb.2003.3(1):2-27.
  [3]陆汝钤,知识科学与计算科学[M].北京.清华大学出版社,2004.
  [4]张海笑、徐小明,数据挖掘中分类方法的研究[J].山西电子技术,2005,(02):8-10.
  [5]张云涛,数据挖掘原理与技术[M].电子工业出版社.2004.
  
  注:“本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。”
其他文献
[摘要]从当今通信技术发展趋势出发,通过应用MATLAB仿真软件,对影响信号谱估计的四个参数作了定性研究,并比较它们之间的异同。  [关键词]信号谱估计仿真MATLAB   中图分类号:TN91 文献标识码:A 文章编号:1671-7597(2008)1010061-02    一、引言  近代谱估计方法已广泛应用于各个领域,如气象预报、市场预测、语声处理、图像加工、地震信号分析、地质勘探、信号识
期刊
[摘要]如何利用现代化的计算机技术和网络技术,为高校党务工作者提供一种高效率、手续简便的服务,以及更好地管理大量的高校学生党员,是高校党务管理部门面临的新课题。针对昆明冶金高等专科学校学生党员发展的业务流程和管理需求,应用统一建模语言UML进行分析。  [关键词]高校学生党员管理 信息系统 统一建模语言  中图分类号:G47 文献标识码:A 文章编号:1671-7597(2008)1010072-
期刊
[摘要]针对混沌系统中Lyapunov指数的估计问题,从受控角度出发,提出一种Lyapunov指数新的估计方法。得知只要离散系统中的向量场函数 f(x)对应的雅克比矩阵fx(x)满足一定的条件,就能得到系统Lyapunov指数的上界和下界。分析表明,该估计方法具有可计算性,而且容易操作。  [关键词]Lyapunov指数 特征值 奇异值  中图分类号:O13 文献标识码:A 文章编号:1671-7
期刊
[摘要]根据飞机概念设计系统同其他CAD/CAM系统通过IGES标准进行数据交换遇到的问题为例,介绍IGES图形交换标准的重要性,总结在飞机设计CAD/CAM系统中应用IGES标准传输图形数据时需要注意的问题和解决方法,满足飞机设计在研制过程中使用CAD/CAM时数据传输的需要。此外还分析在IGES标准基础上发展起来的STEP标准出现的原因及其应用前景。  [关键词]CAD/CAM IGES 飞机
期刊
[摘要]随着国家教育信息化工程的全面推进,高校的校园教育管理信息化系统之间需要实现数据共享和互访,使教育部门内部各应用软件之间实现互操作;使互操作过程与操作系统无关、与传输协议无关、与程序语言无关。   [关键词]ZIS EMIF 教育管理信息系统 互操作 教育管理信息化  中图分类号:C94 文献标识码:A 文章编号:1671-7597(2008)1010059-02    教育管理信息系统互操
期刊
[摘要]介绍基于B/S结构开发学校公寓信息管理系统的设计构想和实现方法,中给出系统的模块设计和数据库的表格设计,还有软件实现部分的通用代码分析以及关键技术的分析。  [关键词]公寓信息管理 B/S 网络数据库 .NET  中图分类号:TP2 文献标识码:A 文章编号:1671-7597(2008)1010071-01    一、引言    随着我国高等教育的飞速发展,高校的办学规模迅速扩大,在校人
期刊
[摘 要]函数是C程序基本构造模块,是构造结构化程序的基础。对C函数的调用做全面的分析和研究,总结主调函数调用被调函数时的数据传递有值传递方式、地址传递方式以及值传递和地址传递并存方式,并对每一种调用方式的调用过程从内存分配给予说明和解释。  [关键词]函数形参 函数实参 值传递 地址传递 单向 双向  中图分类号:TP311.11 文献标识码:A 文章编号:1671-7597(2008)1010
期刊
[摘要]Microsoft公司的 PowerPoint 2003是一个优秀的演示工具.它可以将文字、图形、图像、声音以及视频剪辑等多媒体元素融为一体,赋予演示对象更强的感染力。如何将需要交流传播的信息以更生动、更吸引人的方式展示出来,以生强烈的感染力,已成为信息交流中的一个关键问题。  [关键词]PowerPoint 2003 插入 多媒体  中图分类号:TP2 文献标识码:A 文章编号:1671
期刊
[摘要]随着无线局域网技术的进一步成熟,越来越多的校园网开始了大规模部署,而传统的无线网络构架在配置部署上的繁琐,为无线网络的推广带来了障碍。“AP零配置”模式作为一种全新的网络架构模式,因其配置的自动化、智能化给无线校园网的维护带来了很大的方便,在无线校园网的构建中起到了很好的应用价值。  [关键词]无线网络 模式 应用研究  中图分类号:TP3文献标识码:A 文章编号:1671-7597(20
期刊
[摘要]简介当前广泛用于解决电子商务中安全问题的PKI技术。PKI(Pubic Key Infrastructure)是一种遵循标准的利用公钥加密技术为电子商务的开展提供一套安全基础平台的技术和规范。PKI的核心组成部分CA( Certification Authority),即认证中心,它是数字证书的签发机构。数字证书,有时被称为数字身份证,是一个符合一定格式的电子文件,用来识别电子证书持有者的
期刊