论文部分内容阅读
近年来,Web技术快速发展和广泛应用促使各站点积累了大量的业务数据,从这些数据中发现具有相似访问兴趣的用户群体具有重要的意义。论文研究了结合时间窗的访问兴趣聚类分析,解决了以往兴趣模型单纯考虑页面喜好所导致的聚类结果准确度不够的问题。在分析影响页面喜好的各因素以及用户访问时间规律性的基础上,本文提出了多用户页面访问兴趣模型、多用户时间窗访问兴趣模型和多用户多页面的时间窗访问兴趣模型,以分别用于描述各用户对于各页面的访问情况、各用户在各时间窗内对站点的访问情况和各用户对于各页面在每一时间窗内的访问情况,从不同角度剖析了用户的访问兴趣。在以上模型的基础上,提出了页面喜好协调时间窗的聚类算法、时间窗协调页面喜好的聚类算法和页面喜好结合时间窗的聚类算法,综合了页面喜好和时间窗访问因素提升了聚类结果的准确度和丰富程度。实验表明,页面喜好协调时间窗的聚类算法和时间窗协调页面喜好的聚类算法在综合页面喜好和时间窗的基础上,有效地改善了单纯地考虑任一因素所导致的准确度不够的问题;页面喜好结合时间窗的聚类算法在结合页面喜好和时间窗因素的基础上,通过优化初始点选择算法有效地克服K-Means算法对初始点过于依赖的问题。