论文部分内容阅读
随着网络技术的飞速发展,信息快速增长与人们个性化需求的矛盾在不断地增加,而Web用户访问路径聚类正是解决这一矛盾的有效手段之一。通过对Web用户访问路径聚类,可以发现用户兴趣、个性及共性特征,可以抽取一段时期内用户访问行为特征的分布模式。目前路径聚类方法,不仅对路径相似度定义不够充分,而且聚类算法很难满足用户访问的不确定性、非单一性特点。因此,论文针对Web用户访问路径的聚类方法进行了研究。
首先,为了更好的对Web用户访问路径进行聚类,从系统论的角度出发,提出了一种基于路径特征差异的相似度计算方法,该方法充分考虑到了页面访问中的各种特征。比如,新方法不仅考虑了用户访问页面的时间特征、频率特征,而且考虑了访问序列的顺序关系以及最长公共子页面系统特征,因此很大程度地提高了相似度计算的准确性。而且,对比试验验证了新方法在实际应用中更科学更合理。
其次,考虑到Web用户访问具有不确定性、非单一性的特点,针对这种不确定性聚类,提出了一种高效的模糊可能性聚类算法(FPL:Fuzzy PossibilisticLeader Clustering Algorithm)。该算法在聚类过程中能很好的处理模糊边界问题。由于结合了模糊集和可能性理论的优点,FPL算法在一定程度上能克服噪声数据或聚类中心的影响。对类特征模糊或类之间具有交叉的数据,通过我们定义的截集自动地将这些数据分到若干个类中,实现了交叉聚类。另外,新方法中减少了阈值使用个数,减少了人为的干预,增加了聚类的客观准确性。
最后,论文结合Web用户访问特点,针对Web用户访问路径聚类分析中普遍存在的对象类别不确定性现象进行了研究。在前面研究工作的基础上,提出来一种新的Web用户访问路径的可能性模糊聚类新算法。新方法通过定义相关的截集,自动地将对象分配到若干簇中,避免了人工干预,实现了路径交叉聚类的目的。由于新方法是建立在Leader聚类算法的框架上,只需要扫描数据集一遍使得算法效率大大提高。在标准数据集上的对比试验表明新算法不仅是有效的,而且效率较高。