论文部分内容阅读
随着我国社会、经济等领域的不断进步,因特网技术的日臻成熟和快速发展,推荐系统也被广泛应用于各种电子商务网站,推荐系统的广泛应用能够促进广大用户在互联网应用领域从浏览者到消费者之间的身份快速转换,让用户获得更加智能高效的信息生活的同时给服务提供商带来更大的商机。协同过滤算法(Collaborative Filtering)作为推荐系统的主要技术,能够有效地解决信息过载的问题。协同过滤算法的核心思想是,根据用户更愿意采纳与其具有相同或相似兴趣爱好的朋友提出的意见这一中心思想,运用最近邻相似技术研究用户的兴趣特征,通过预测用户的几个兴趣点,进行个性化的推荐。在项目-用户的评分矩阵中,每位用户给出的项目评分的数量可能与用户数量相比非常稀疏,导致推荐的成功率急剧下降,所以用户的使用体验较为不理想。协同过滤是推荐策略中使用较为广泛的算法,其目的在于通过过滤大量信息,将用户引导向可能感兴趣的项目。此外,协同过滤算法还存在诸如冷启动问题,未考虑用户兴趣动态变化和扩展性差等问题,导致推荐的结果准确率很低。因此,我们还要针对上述的诸多问题进行进一步的研究。本文的具体工作如下:(1)主要介绍课题的研究背景及其意义,综合论述推荐领域的相关技术,包括基于模型的和基于邻域的协同过滤算法,系统的总结了推荐领域的主要数据集和几个常用的评价指标。(2)基于用户的协同过滤推荐方法在进行推荐的过程中,比较侧重于如何利用用户给出的历史评分数据来进行用户相似度的计算,针对传统协同过滤推荐算法存在数据稀疏性及动态情景下推荐质量急剧下降的问题,我们提出了一种基于加权聚类的动态情景协同过滤推荐算法(dynamic collaborative filtering algorithm based on a weighted clustering method,WCM-DCF)。该方法对提供较多评分的用户给予更多的重视,在运用SK-means聚类方法的基础上引入用户权重的概念,有效的解决了数据稀疏性的问题,在此基础上考虑增量更新的情况以便处理推荐过程中数据的频繁变化带来的影响,优化了对目标用户的偏好预测和个性化推荐建议。实验结果表明,相比于IUCF、IICF、和COCLUST算法,该算法在有效缓解用户评分数据稀疏性的同时,还以非常低的计算成本提供了高质量的推荐建议。(3)针对传统的文本聚类方法在聚类性能上存在的不足,本课题提出一种基于最大熵原理的聚类算法。该算法采用传统文本聚类算法SP-Kmeans中引用余弦相似度的方法,引入最大熵理论构造适合文本聚类的最大熵目标函数,然后将最大熵原理引入到球形K均值文本聚类算法中。实验结果表明,与DA-VMFS和SP-Kmeans算法相比,本课题提出的CAMEP聚类算法性能上有大幅度的提高,整体性能良好,能够大幅度提高聚类的准确率。