论文部分内容阅读
随着互联网技术的快速发展,海量的数据随之产生,对于互联网用户而言,面临着严重的“信息过载”问题,即用户无法从海量数据中寻找到自己所需要的数据。为解决这个问题,网络供应商提出了各种技术。其中,个性化推荐技术能够依据用户的历史行为数据,为用户提供量身定做的推荐结果,这种推荐方式称为精准推荐。协同过滤算法作为精准推荐中广泛使用的推荐算法,面临着矩阵稀疏性、冷启动、性能不高等问题。同时现阶段用户的产生的历史行为数据以标签的形式展现,当多个用户为多个项目打上多个标签时,标签就产生了社会化属性,称之为社会化标签。通过结合标签与协同过滤算法,能够有效的改进推荐效果,提升精准推荐的精度。本文研究内容从实际项目出发,对传统的基于项目的协同过滤算法的缺点,使用标签来进行补充和修正。首先,使用改进后的K-means聚类算法对标签进行聚类,然后提出项目之间标签相似度的概念及计算公式,将项目之间的标签相似度与评分相似度加权生成最终的相似度计算公式,然后以最终的相似度计算公式为参数,使用预测评分公式预测用户对于项目的评分,选取其中的评分最高的N件商品推荐给用户。本文所提出的算法首先使用推荐领域的公开的测试集—MovieLen来进行测试,以验证算法的有效性和普适性。最后以本文所提出的精准推荐算法为基础,构建携农项目的精准推荐引擎,同时使用携农项目的数据验证算法的特适性,本文所提出的精准推荐算法最终落实于具体的项目当中,解决项目实际中遇到的问题。本文具体的工作如下:1,使用改进后的聚类算法对项目的标签进行聚类,形成标签簇。选用的聚类算法为K-means算法,改进的内容为该算法的中心距离衡量标准,本文所提出的改进算法能够良好的适应“标签”的特性。2,使用聚类形成的标签簇来计算项目之间的标签相似度,并结合基于项目的协同过滤算法中的项目评分相似度,加权组合成最终的相似度计算公式,将综合相似度运用在预测评分计算中,预测用户对于未购买商品的兴趣值,并根据兴趣值排序,选取其中的Top-N推荐给用户。3,对于本文提出的精准推荐算法,使用公开数据集MovieLen来进行训练和测试,调整算法中的参数,同时与传统的协同过滤算法进行对比,验证其性能上的优势,证明本文所提出算法的普适性。4,对“携农”的商品评价和精准推荐模块进行设计与实现,构建了一种标签和打分共存的评价体系,这种评价体系在方便用户评价的同时,也有效的采集到了用户的评分和标签等数据。同时,以本文所提出的算法为基础构建“携农”系统精准推荐引擎,并使用现阶段“携农”系统积累的数据对精准推荐模型的参数进行优化。