多标准协同过滤数据稀疏性与聚合策略研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:limanyu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的快速普及和发展促进了各类电商规模的不断扩大,为了解决信息过载,更好地帮助客户进行商品选购,促进商品销售,推荐系统应时而生。然而,为了更好地为客户提供个性化决策支持和精准服务,越来越多的平台要求客户对商品的多个标准进行打分评价。此时,基于单一评分的传统协同过滤算法显得力不从心,多标准推荐系统应运而生。与之对应的多标准协同过滤算法综合了更多用户评价体系,为用户提供更为精准的推荐服务。目前,学者们针对多标准协同过滤推荐算法展开了一系列研究,取得了一定成果,但在很多方面还存在不足。例如,针对评分矩阵稀疏性问题,目前学者多采用降维的方式,但是,降维会损失数量相对稀少的原始评分数据,造成信息浪费;针对各标准相似度和评分聚合策略问题,目前多采用了线性回归或传统的启发式算法,但前者没有考虑到总体评分与各标准评分间的复杂映射问题,后者没有解决因为算法自身缺陷而造成的聚合不准确问题;此外,在多标准推荐结果多样性研究方面,虽然有学者试图通过引入更多用户信息(如时间信息、用户活跃度、上下文粒度等)来提高多样性,但是对于相似度的计算更多还是依靠用户评分,因此对多标准评分矩阵信息仍可以进行深入挖掘。针对以上问题,本文分别开展了如下研究工作:(1)针对数据稀疏性问题,本文尝试采用新的研究思路,提出了一种基于Jaccard系数和可靠因子的矩阵填充方法。该方法在不损失任何原有信息的基础上,对缺失值进行了预测填充,同时为了避免填充评分误差对用户相似度计算造成影响,本文引入了可靠因子对用户真实评分和填充评分进行区分,以达到充分信任用户真实评分、限制填充评分的作用。一系列对比实验表明,该方法能有效增加用户相似度计算的可靠性,使得评分预测的准确度更高。(2)针对多标准评分聚合策略问题,本文在矩阵填充的基础上,提出了一种改进粒子群算法来对多标准评分进行聚合。该算法克服了传统粒子群算法容易陷入局部最优和收敛速度慢等缺点。首先,对粒子群算法的惯性权重、学习因子等参数进行动态调整,且将其与迭代次数相结合,加快收敛速度;其次,对移动速度进行高斯扰动并引入遗传算子,使其跳出局部最优;最后,根据改进粒子群算法求出各标准权重,聚合各标准评分。实验表明,该方法有效提高了评分预测的准确性以及推荐列表的准确率和召回率。(3)在多标准相似度聚合策略与推荐列表多样性研究方面,本文仍然在矩阵填充的基础上,提出了一种基于偏好信息熵和谱聚类的多标准相似度聚合算法。该算法针对评分矩阵中信息挖掘不充分问题,首先提取出用户各标准评分和总体评分间隐式的差异信息,并定义了用户偏好信息熵来描述用户个人偏好;其次,根据偏好信息熵计算偏好信息熵权,聚合各标准相似度;最后,将聚合相似度结合谱聚类算法提高用户邻居群体的准确性。一系列对比实验表明,该方法不仅能有效提高评分预测与推荐列表的准确性,而且能增加推荐列表的多样性。研究结果表明,本文提出的矩阵填充方法为解决多标准协同过滤中的数据稀疏性问题提供了很好的解决思路;提出的改进粒子群算法为解决多标准评分有效聚合问题提供了新的方法;提出的基于偏好信息熵和谱聚类的方法,能在保证评分预测和推荐列表准确度的同时,也对多标准协同过滤中的多样性研究问题进行了有益的探索和尝试。
其他文献
作为人类经济发展和社会文明前进的第一推动力,能源主导着不可替代的作用。但是随着近年来随着化石能源的大量减少以及由它所带来的环境污染问题,成为全球经济发展一个痛点,
本文对我国保险业发生的洗钱案例进行了实证分析,指出了当前保险业反洗钱工作中存在着反洗钱意识缺失、制度缺失等问题,并针对这些问题提出了制定保险业反洗钱工作指引、加强
2009年11月26至27日,国家林业局森林公安局在海南省举办了全国森林公安刑侦工作培训班。曹真巡视员发表了重要讲话,充分肯定了近两年来森林公安刑侦工作取得的成绩,分析了森
本试验以桔梗为材料,采用农艺性状观测,组织结构解剖学观察,化学成分含量测定等研究方法和手段,研究桔梗在不同播期(秋播、冬播、春播)不同产地(嵩县、桐柏、商城、鹿邑)的性
采用复合菌株进行固态发酵豆粕的研究,通过正交试验及菌种比例搭配试验得到适宜发酵条件:米曲霉与枯草芽孢杆菌组合,接种比为1∶3(V/V),总接种量2%,培养温度40℃,培养时间60
在社会发展进程中,计算机技术的应用也逐渐广泛,其中在计算机软件设计创新发展中,嵌入式软件设计的应用能够显著提升计算机软件整体质量,以此改善计算机网络应用的稳定性。本
介绍了激光电视的原理,阐述了利用全固态激光器产生红、绿、蓝激光的技术途径,分析了激光电视的市场前景与发展方向。
研究了8种大孔树脂对芦荟甙的吸附及解吸性能,树脂饱和吸附量实验表明NKA-Ⅱ和CAD45对芦荟甙都有较好的吸附,而洗脱实验表明NKA-Ⅱ的洗脱率明显高于其他树脂.在选择NKA-Ⅱ型
简述了媒体资产管理和媒资管理系统的发展进程,阐明了新形势下媒体资产管理面向"内容产业"发展的资产价值提升和媒资管理系统的功能拓展,同时结合对基于全台网架构下"现代媒
纪录片《敦煌》叙事策略可以归纳为由人物搭建的结构框架、转换自如的人物视点和人物形象的塑造三个方面。作为一部娱乐化的人文类纪录片,《敦煌》以独特的叙事方式拓展了电