论文部分内容阅读
随着Internet的不断发展,信息过载和资源迷向已经成为制约人们高效使用Internet信息的瓶颈。人们希望网页的内容能够尽可能地根据用户的浏览兴趣自动调整,从而使每个用户感觉好像自己是网站的唯一用户,实现这一目标的关键在于Web网站如何发现用户喜好、动态地为用户定制观看的内容或者提供浏览建议。这就要求网站信息服务改变过去那种对所有用户提供界面统一、内容相同的服务方式,从“以站点为中心”向“以用户为中心”发展,即站点不但要有针对所有用户共同感兴趣的信息和服务,更要有针对各个用户的不同兴趣、爱好自动组织和调整的个性化服务。在这种情况下,针对不同用户的需求,建立相应商品服务措施的个性化推荐服务技术被越来越多的企业迅速地采用,个性化技术已成为电子商务领域中一项迫切而重要的研究课题,个性化推荐技术的研究将具有较高的学术价值和应用前景。
论文总结了个性化推荐领域中Web聚类算法的国内外研究现状,分析了已有方法的优缺点。针对Web数据的非结构性特征以及用户浏览Web时的模糊性与不确定性问题,提出了一种新的相似性度量方法,进而给出了一种基于模糊多重集的Web用户聚类算法。针对核K-means聚类算法对初始参数敏感的问题,利用局部密度的方法获得初始聚类中心。本文采用理论分析和模拟实验相结合的方法展开研究,其主要研究内容如下:
1、总结了个性化推荐中Web聚类分析技术的研究现状,介绍了两种常用的聚类算法和Web数据预处理流程,给出了常用的预处理算法。
2、提出了一种改进的Web用户聚类方法。把模糊多重集的概念引入到模糊聚类算法中,将反映用户浏览行为的页面点击次数、访问时间、访问顺序等因素用模糊多重集来综合刻画用户访问站点的兴趣度,最后形成用户相似模式库。
3、提出了一种局部密度和核K-means的页面聚类算法,选择具有高密度且低相似性的样本点为初始聚类中心。通过实验对比结果证明该算法可以有效地改善核K-means聚类算法的效果,在处理大数据集时有较高的聚类质量,同时提高聚类的稳定性。
4、设计并实现了一个基于Web聚类的个性化推荐系统。该系统包括离线数据预处理、用户和页面聚类集提取以及在线个性化推荐等。