Web用户访问路径聚类方法研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:ddssdcsyqc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术的飞速发展,信息快速增长与人们个性化需求的矛盾在不断地增加,而Web用户访问路径聚类正是解决这一矛盾的有效手段之一。通过对Web用户访问路径聚类,可以发现用户兴趣、个性及共性特征,可以抽取一段时期内用户访问行为特征的分布模式。目前路径聚类方法,不仅对路径相似度定义不够充分,而且聚类算法很难满足用户访问的不确定性、非单一性特点。因此,论文针对Web用户访问路径的聚类方法进行了研究。   首先,为了更好的对Web用户访问路径进行聚类,从系统论的角度出发,提出了一种基于路径特征差异的相似度计算方法,该方法充分考虑到了页面访问中的各种特征。比如,新方法不仅考虑了用户访问页面的时间特征、频率特征,而且考虑了访问序列的顺序关系以及最长公共子页面系统特征,因此很大程度地提高了相似度计算的准确性。而且,对比试验验证了新方法在实际应用中更科学更合理。   其次,考虑到Web用户访问具有不确定性、非单一性的特点,针对这种不确定性聚类,提出了一种高效的模糊可能性聚类算法(FPL:Fuzzy PossibilisticLeader Clustering Algorithm)。该算法在聚类过程中能很好的处理模糊边界问题。由于结合了模糊集和可能性理论的优点,FPL算法在一定程度上能克服噪声数据或聚类中心的影响。对类特征模糊或类之间具有交叉的数据,通过我们定义的截集自动地将这些数据分到若干个类中,实现了交叉聚类。另外,新方法中减少了阈值使用个数,减少了人为的干预,增加了聚类的客观准确性。   最后,论文结合Web用户访问特点,针对Web用户访问路径聚类分析中普遍存在的对象类别不确定性现象进行了研究。在前面研究工作的基础上,提出来一种新的Web用户访问路径的可能性模糊聚类新算法。新方法通过定义相关的截集,自动地将对象分配到若干簇中,避免了人工干预,实现了路径交叉聚类的目的。由于新方法是建立在Leader聚类算法的框架上,只需要扫描数据集一遍使得算法效率大大提高。在标准数据集上的对比试验表明新算法不仅是有效的,而且效率较高。  
其他文献
随着信息技术迅速发展,电子商务作为一种新型、高效的商务模式快速得到普及,电子商务系统在为用户提供越来越多选择的同时,其结构也变得更加复杂,用户经常会迷失在大量的商品中,无
随着软件系统应用的广泛化和复杂化,如何开发面向方面的软件系统,进而提高系统的可复用性,可维护性以及可扩展性已经成为软件工程重要研究课题。目前,面向方面的软件开发与模型驱
天然的各类岩石中普遍存在节理裂隙,了解节理裂隙的性质对于地质、地球物理、采矿、石油工程、水文地质以及核废料隔离都具有重要意义。岩石节理裂隙研究的一项重要内容是表面
BBS是网络舆情产生和传播的主要场所之一。由于手段匮乏,BBS中网络舆情的研究目前仍处于探索阶段。及时发现潜在的突发网络舆情,了解网络舆情的演化规律,已经成为网络舆情预警的
对等(P2P)计算在管理和利用日益增长的分布式信息和计算资源方面表现出了良好的性能,所以基于P2P计算的新型分布式系统(P2P系统)成为Internet最流行的系统之一。特别是Gnutell
近年来,恶性肿瘤(癌症)的发病率和死亡率均呈上升趋势,已成为严重威胁人类生命健康的主要疾病。放射治疗作为肿瘤治疗的三大主要手段之一,在肿瘤治疗中发挥着重要的作用,功能影像
随着计算机技术的发展和各种电子信息交互活动在现实生活中的不断深入,计算机犯罪的类型和领域也在增加和扩大,电子证据正悄然走近司法领域。与传统证据相比,由于电子证据极容易
随着计算机技术的发展和各种电子信息交互活动在现实生活中的不断深入,计算机犯罪的类型和领域也在增加和扩大。目前大规模的数字取证调查至少存在两个基本挑战。第一是如何满
位置管理是蜂窝通信网中的一个重要问题,随着移动用户数量的快速增加,移动用户的漫游将导致巨大的系统资源消耗,因此对现有的移动性管理算法进行调整和优化是十分重要的。  
伴随着互联网数据爆炸式地增长,各种类型的数据以流的形式源源不断产生。静态数据上的挖掘技术已不能满足现实问题分析的需要,应运而生了各种数据流挖掘技术,同时数据流挖掘