基于Web日志的用户兴趣聚类研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:lhl1208
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的普及,信息快速增长与人们注意力有限性的矛盾在不断增加,而Web日志挖掘正是解决这一矛盾的有效手段。Web日志中隐含了用户访问网站的行为和特点,使用聚类技术对其进行分析可以得到用户的兴趣模式,从而为网站结构的优化、个性化服务的推荐、电子商务的开展等方面提供帮助。传统的聚类对用户兴趣考虑不充分,导致聚类效果不理想。本文通过引入路径兴趣度的概念对用户访问兴趣模式进行挖掘,再利用改进的聚类算法对用户访问路径进行聚类,实验表明该方法聚类效果明显。本文的主要内容如下:(1)介绍并分析了Web日志挖掘中的数据预处理技术,提出了由用户访问序列直接转化到各个事务的SFT算法,该算法在保证预处理精度的前提下提高了预处理的速度。(2)针对用户访问路径兴趣度表示的不足,本文提出了改进的兴趣模式挖掘算法IPS,该算法以选择兴趣度、访问时间兴趣度和支持度三个指标来度量用户兴趣路径,并从执行准确度和执行时间两方面将IPS算法与MFS算法进行比较,实验表明IPS算法具有一定优势。(3)针对目前事务聚类算法缺乏用户访问顺序性的缺点,本文提出了改进的用户兴趣模式聚类算法UIC,该算法综合考虑了页面顺序,给出了路径相似度的定义,在此基础上建立用户浏览路径相似度矩阵,从而获得聚类结果集,为个性化服务、电子商务等方面提供了依据。
其他文献
人脸识别技术以其具有直观性、被动性和非侵犯性,在生物特征识别领域有着无法比拟的优势。在诸多影响人脸识别性能的因素中,光照的变化是识别领域最具挑战的难题之一。考虑到
随着互联网信息量的日益激增,人们对信息检索的需求也有所提高,用户更期待通过自然语言的方式表述自己的问题,并得到相应的结果。自动问答系统由此产生。它通过解析自然语言
通信和网络技术的发展为自动控制技术提供了一个新的研究领域,如何更好地利用丰富的网络资源仍然是信息化管理和控制系统应用的热点。随着信息化过程的不断演进,管控一体化逐
学位
随着通信与网络技术的飞速发展和广泛应用,计算机网络已经渗透到人类活动的各个领域。越来越多的企业和组织建立了与自己的关键业务相关的计算机网络系统,借以提高工作效率、
随着计算机技术的不断发展,越来越多的先进技术应用到数字化医学影像领域。医学成像技术日新月异,由最初的X射线发展到如今的CT、MRI等技术的应用,医学图像变得越来越数字化
目前,对等(Peer—to—Peer,简称P2P)网络已成为克服传统客户机朋艮务器(Client/Server,简称C/S)模式缺陷的一种极具吸引力的计算模式。在P2P网络中,每个结点在逻辑关系上是对等的,拥有
流体模拟是指结合物理方程和计算机图形学的方法来模拟烟雾、水流、波浪等常见的自然现象。其中,烟雾的模拟一直是计算机图形学领域中的重点和难点。近年来,随着影视特效、电
闸机智能识别控制系统是轨道交通自动售检票(Automatic FareCollection,AFC)系统出入口闸机的重要组成部分,为闸机的闸门提供控制信号以及各种报警信号。其核心是利用计算机
超短波通信是指利用30~300MHz波段的无线电波进行信息传输,其波长在1~10米之间,主要依靠地波传播和空间波视距传播。整个超短波的频带宽度有270兆赫,是短波频带宽度的10倍。
语义网格将Web上的信息进行形式化的定义,帮助机器与人之间的协同工作,这种形式化后的信息被看做语义网格中的知识,也是语义网格中的资源。目前,国内外对语义网格中知识资源