论文部分内容阅读
互联网的快速普及和发展促进了各类电商规模的不断扩大,为了解决信息过载,更好地帮助客户进行商品选购,促进商品销售,推荐系统应时而生。然而,为了更好地为客户提供个性化决策支持和精准服务,越来越多的平台要求客户对商品的多个标准进行打分评价。此时,基于单一评分的传统协同过滤算法显得力不从心,多标准推荐系统应运而生。与之对应的多标准协同过滤算法综合了更多用户评价体系,为用户提供更为精准的推荐服务。目前,学者们针对多标准协同过滤推荐算法展开了一系列研究,取得了一定成果,但在很多方面还存在不足。例如,针对评分矩阵稀疏性问题,目前学者多采用降维的方式,但是,降维会损失数量相对稀少的原始评分数据,造成信息浪费;针对各标准相似度和评分聚合策略问题,目前多采用了线性回归或传统的启发式算法,但前者没有考虑到总体评分与各标准评分间的复杂映射问题,后者没有解决因为算法自身缺陷而造成的聚合不准确问题;此外,在多标准推荐结果多样性研究方面,虽然有学者试图通过引入更多用户信息(如时间信息、用户活跃度、上下文粒度等)来提高多样性,但是对于相似度的计算更多还是依靠用户评分,因此对多标准评分矩阵信息仍可以进行深入挖掘。针对以上问题,本文分别开展了如下研究工作:(1)针对数据稀疏性问题,本文尝试采用新的研究思路,提出了一种基于Jaccard系数和可靠因子的矩阵填充方法。该方法在不损失任何原有信息的基础上,对缺失值进行了预测填充,同时为了避免填充评分误差对用户相似度计算造成影响,本文引入了可靠因子对用户真实评分和填充评分进行区分,以达到充分信任用户真实评分、限制填充评分的作用。一系列对比实验表明,该方法能有效增加用户相似度计算的可靠性,使得评分预测的准确度更高。(2)针对多标准评分聚合策略问题,本文在矩阵填充的基础上,提出了一种改进粒子群算法来对多标准评分进行聚合。该算法克服了传统粒子群算法容易陷入局部最优和收敛速度慢等缺点。首先,对粒子群算法的惯性权重、学习因子等参数进行动态调整,且将其与迭代次数相结合,加快收敛速度;其次,对移动速度进行高斯扰动并引入遗传算子,使其跳出局部最优;最后,根据改进粒子群算法求出各标准权重,聚合各标准评分。实验表明,该方法有效提高了评分预测的准确性以及推荐列表的准确率和召回率。(3)在多标准相似度聚合策略与推荐列表多样性研究方面,本文仍然在矩阵填充的基础上,提出了一种基于偏好信息熵和谱聚类的多标准相似度聚合算法。该算法针对评分矩阵中信息挖掘不充分问题,首先提取出用户各标准评分和总体评分间隐式的差异信息,并定义了用户偏好信息熵来描述用户个人偏好;其次,根据偏好信息熵计算偏好信息熵权,聚合各标准相似度;最后,将聚合相似度结合谱聚类算法提高用户邻居群体的准确性。一系列对比实验表明,该方法不仅能有效提高评分预测与推荐列表的准确性,而且能增加推荐列表的多样性。研究结果表明,本文提出的矩阵填充方法为解决多标准协同过滤中的数据稀疏性问题提供了很好的解决思路;提出的改进粒子群算法为解决多标准评分有效聚合问题提供了新的方法;提出的基于偏好信息熵和谱聚类的方法,能在保证评分预测和推荐列表准确度的同时,也对多标准协同过滤中的多样性研究问题进行了有益的探索和尝试。