基于聚类的Web日志挖掘

来源 :中国科技博览 | 被引量 : 0次 | 上传用户:xdbgm520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘 要]本文采用K-均值聚类算法对Web日志进行挖掘,并将Web日志挖掘的知识用于网页推荐。在网页推荐环节,我们采用了打分函数,这个函数充分考虑了各种因素对用户访问的影响。
  [关键词]K- means算法 Web日志挖掘 网页推荐 打分函数
  中图分类号:TM121.1.3 文献标识码:B 文章编号:1009-914X(2016)01-0067-02
  1.引 言
  随着全球经济一体化的发展,市场营销策略已愈来愈强调面向市场的方式,企业想要在竞争中取得优势地位,重要的是按照不同用户群体的特定需要,提供全面的服务,精确满足各个消费群体的不同需求。Web聚类挖掘正是因為能够实现这一目标而成为当前发展电子商务的一个重要课题。
  2.Web日志上的聚类挖掘
  2.1Web日志聚类的分类
  Web日志上的聚类有两种:用户聚类和页面聚类。用户聚类是对用户的会话进行分析。通过聚类分析的方法,将访问模式相同的用户聚在一起,将访问模式不同的用户区分开。页面聚类是对被用户访问的页面情况进行分析,根据用户访问内容,发现被相同用户访问的页面,并将其归为一组。
  2.2会话以及会话矩阵的表示
  这里采用向量的方式来表示会话,为了表示一个会话向量需要对网站中的所有网页进行编码,从而将网页用对应的编码来代替。设会话向量V=(U1,U2,U3……Un),其中Ui的值是对编号为i的网页进行访问的次数,如果编号为i的网页没有被浏览,Ui=0。有了会话向量,就可以将日志中所有的会话用向量的方式表示出来,然后就可以得到会话矩阵。
  2.3会话的相似度量方法
  2.3.1会话间的相似度
  这里用夹角余弦法来定义两个会话i,j之间的相似度S(i,j),设会话i的会话Vi=(mi1,mi2, mi3……min),会话j的会话向量为Vj=(mj1,mj2, mj3……mjn),那么
  设相似矩阵为R=(rij)s*s,rij用来代替会话i和j的相似度:
  2.3.2相似度矩阵
  相似度矩阵:对于矩阵R,,其中rij=S(i,j),即会话i和j的相似度。矩阵R为会话集合的相似度矩阵。
  3.Web日志上的聚类分析算法
  3.1K-均值聚类算法
  我们选择聚类算法中的K-均值聚类算法(k-means algorithm)来进行Web上的用户聚类和网页聚类,K-均值聚类算法是无监督分类中的一种基本方法,其也称为C-均值算法,其基本思想是:通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。该算法必须在开始输入一个K值,作为该算法在数据集上分割并计算后输出聚类的数量。
  算法的开始是随机的从聚类对象集合中取K个对象,最为最初的聚类中心,然后算法开始循环迭代,对每一个输入的对象向量计算它与K个聚类中心的距离,找到距离对象最近的聚类,并将其归为该聚类。重新计算聚类的中心,然后依次迭代,知道聚类的成员不再变化,或者用来衡量聚类质量的目标函数不存在明显的变化,即变化小于一个可以认可的值。
  4. Web日志聚类结果的应用
  Web日志聚类结果最直接的用途就是网页推荐。网页推荐的过程,首先要提取用户的访问模式,然后对网站中的各个网页进行打分,按照得分的高低来排序,最后将得分较高的若干网页推荐出去。网页推荐最重要的一个环节就是对打分函数的设计,即依据什么样的函数来对网页进行打分。在定义打分函数之前我们先定义以下几个概念:
  会话片段向量:对于一个当前还结束的会话,构造一个向量ui=(u1,u2, u3……un),其中n是经过了预处理后网页的总数目,ui的值是该会话对编号为i的网页的访问次数,我们称向量u为一个会话片段向量。
  网页访问向量:p=(p1,p2, p3……pn), 其中n是经过了预处理后会话的总数目。pi是编号为i的会话对网页p的访问次数。
  聚类支持度函数:S_cluster(u,p)=Projp(maxc(u,ci)),其中ci是对会话的聚类分析后聚类中编号为i的聚类簇的中心。maxc(u,ci)函数的值是同会话片段向量u相似度最大的中心向量。
  聚类支持函数是从用户聚类的角度来考虑预期的推荐网页,即用当前的会话片段向量距离最近的聚类中心的属性来考虑对网页p的支持程度。
  点击率:
  其中Ci是经过预处理后,用户对编号为i的网页的总访问次数。Cp是经过预处理后,用户对网页p的总访问次数。点击率函数参照了网页p原来被访问的数据,从概率的角度来考虑网页p被再次访问的可能性。
  打分函数: f(p,pl,u)=S_cluster(u,p)×S_click(p)×sim(p,pl)
  其中pl是会话u最近访问的页面。p是当前需要打分的页面。sim(p,pl)是网页p和网页pl的相似度。
  有了打分函数,就可以对一个具体的用户推荐网页。对于一个当前需要推荐网页的用户,首先提取他的访问会话片段向量u。然后,从数据库中得到会话聚类分析的结果,计算出距离当前用户最近那一个聚类簇C,计算C的聚类中心,根据日志中的时间属性,找到会话中的最后访问网页pl。假定网页pl所属的网页聚类为K,对于推荐网页集合中每一个网页根据打分函数的定义,计算它的得分,最后按照得分的高低对所有打分后的网页进行排序,将排序在前面的网页推荐给用户U。
  5.总结
  本文采用K-均值聚类算法对Web日志中的用户和页面进行聚类,并将聚类结果用户网页推荐。在网页推荐过程我们运用打分函数对网页进行排序,把分数的较高的网页推荐给网页,这样更能满足用户的需要。
  参考文献
  [1] 陈安,陈宁,周龙骧.数据挖掘技术及应用.北京:科学出版社.2006.3
  [2] 康晓东.基于数据仓库的数据挖掘技术.北京:机械工业出版社.2004
  [3] 王春霞.基于Web日志的挖掘研究[D].郑州大学.2003
  [4] 范明.聚类算法在Web挖掘中的应用[D].西北工业大学.2007
  [5] 付国瑜. 基于Web日志的数据挖掘研究[D].重庆大学.2007
  作者简介:
  令狐红英(1982—— ),女,贵州师范学院教师,讲师,主要研究方向为数据库技术与软件工程。
其他文献
[摘 要]当前,电力系统的不断发展使得系统用户的数量也呈现出了非常明显的上升趋势,电网建设的规模也有了非常明显的增大趋势。在电力系统运行的过程中所使用的电力设备也越来越复杂。在电气设备使用的过程中,对检修计划加以科学合理的安排有着非常重要的意义,它会对电网供电产生非常重大的影响。本文主要分析了合理安排检修计划与电网运行的关系,以供参考和借鉴。  [关键词]检修计划;状态检修;供电可靠性  中图分类
期刊
[摘 要]电能是推动现代社会经济发展的重要动力,对人类文明的发展做出了巨大的贡献。人类社会的发展愈来愈离不开电能,因此提高电力系统经济运行效率就显得尤为重要。本文主要从发电、输电、用电三个方面,提出电力系统经济运行的若干措施,希望能够对我国电力行业的可持续发展做出微薄贡献。  [关键词]电力系统 经济运行 效率  中图分类号:TM121.1.3文献标识码:B 文章编号:1009-914X(2016
期刊
[摘 要]目前,无线信号已经成为了人们生活、工作中必不或缺的组成部分,无线信号的传输能够提高信息传播速度,但是从某种角度分析,无线信号容易受到气象因素的影响,比如像雨雪天气无线信号传输质量差,对人们的正常生活、工作造成影响。在本文中笔者结合对无线信号传输的认识,探究无线信号传输的路径,并深入分析了气象因素对无线信号传输所产生的重要影响。  [关键词]气象因素 无线信号传输 影响  中图分类号:TM
期刊
[摘 要]本文就改进軌道防滑装置施工工艺和斜坡串车提升安全绳加装防脱落装置进行论述,解决斜坡运输中相关问题。  [关键词]轨道防滑 安全绳防脱落 斜坡运输  中图分类号:TM121.1.3文献标识码:B 文章编号:1009-914X(2016)01-0034-01  一、斜坡轨道运输防滑装置施工工艺改进  随着井下使用轨道型号的加大,斜坡上钢轨向下滑动现象尤为突出,引起上部轨缝增大,甚至拉断螺丝,
期刊
[摘 要]随着我国电力事业的不断发展,配电网的负荷也在不断增加,人们对供电的可靠性也有了较高的要求,因此配电网作业方式也日益广泛了起来,配电网带电作业的开展是社会经济发展的必要要求,在配电网带电作业过程中,要把人的安全放在中心位置,必须做好作业人员的人身安全和设备的齐全,在作业过程中绝缘斗臂车等工具的使用,在一定程度上保证了作业人员的安全,提高了作业人员的作业质量,使我国的配电网带电作业日益蓬勃发
期刊
[摘 要]继电保护装置是电力系统的重要组成部分,保障系统的安全运行。然而继电保护装置运行中容易发生很多故障,会对继电保护作用产生影响。本文分析了职能变电站继电保护存在的问题,进而提出故障可视化方案分析。  [关键词]智能变电站 继电保护 故障可视化  中图分类号:TM725 文献标识码:A 文章编号:1009-914X(2016)01-0062-02  继电保护在电力系统发生故障时,能够快速切除故
期刊
[摘 要]雷达料位计在工业场合的应用至今已有40年的历史。当今市场主流的雷达料位计国际生产厂家有:罗斯蒙特、西门子、恩德斯豪斯、科隆,國内排名靠前的有北京瑞普三元仪表有限公司、北京古达仪表有限公司等。雷达作为比较先进的物位测量仪表,其发展速度相当迅猛,雷达料位计的设计频率从2.5GHz发展75GHz,测量量程也从十几米延伸到上百米。从天线形式来看有PTFE杆式天线、喇叭、抛物线形天线等,随着新技术
期刊
[摘 要]随着科学技术的不断发展,计算机已经运用到人们生活工作的各个领域,成为不可缺少的重要工具,但计算机出现故障的情况随处可见,给人们的生活和工作带来了不便。本文通过分析计算机各种故障出现的判断方法,总结计算机硬件的全面性维护途径。  [关键词]计算机故障 判断方法 硬件维护 全面性  中圖分类号:TM121.1.3文献标识码:B 文章编号:1009-914X(2016)01-0053-02  
期刊
[摘 要]随着同心区域经济的迅速发展,家电下乡的普及、农村电力需求不断增长,逐渐出现了电网“卡脖子”、线径小供电能力不足,部分农村台区出现了“低电压”現象,严重地影响了居民正常的生产生活用电。本文着重对治理同心地区低电压采取的管理措施和技术措施进行了阐述,并取得了很好的效果。  [关键词]农村 低电压 管理措施 技术措施  中图分类号:TM725 文献标识码:A 文章编号:1009-914X(20
期刊
[摘 要]随着我国经济的快速发展,人们的生活水平日益提高,越来越多的人购买汽车作为出行的交通工具,为了保证汽车的使用安全,延长汽车的使用寿命,需要加强关于汽车运用的檢测与维修方面相关技术的分析,利用先进的技术和手段提高汽车的各项使用性能,从而更好的方便人们的生活。  [关键词]汽车 检测 维修 技术  中图分类号:TM121.1.3文献标识码:B 文章编号:1009-914X(2016)01-00
期刊