基于改进评分矩阵的动态协同过滤推荐算法研究

来源 :东华大学 | 被引量 : 0次 | 上传用户:shaw1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
早期的互联网用户必须通过记住网站来查找信息。随着21世纪以来互联网信息技术的迅速发展,尤其是近年来Web2.0和社交媒体技术的诞生,爆炸式增长的信息量引发了信息过载的现象。为了缓解信息过载的情况,使得用户可以在海量信息中找到有价值的信息,分类目录网站和搜索引擎网站应运而生,但是分类目录一般只能涉及少量的热门网站,收录和维护工作比较繁琐且不自动化,当信息量进一步增加的时候,分类目录将束手无策。为了解决这个问题,搜索引擎技术诞生了,搜索引擎的机制是网络用户提供需要检索的关键词,此后搜索引擎根据关键词进行检索并返回相同的结果,无法满足用户个性化的需求,同时一词多义也造成了噪声结果从而影响用户体验。推荐系统就在此背景下应运而生,推荐系统通过分析用户历史行为数据进行主动推荐,目前个性化推荐技术已经成为最受欢迎的信息过滤方式。
  协同过滤算法的重要输入数据是用户-项目评分矩阵,但是由于项目数是远远多于用户数的,所以用户-项目评分矩阵存在着十分严重的数据稀疏性。针对传统协同过滤算法中的数据稀疏性问题,本文通过改进的Slope-One算法融入协同过滤算法中来填充评分矩阵,通过融入话语权的Slope-One算法对用户评分进行预测并回填至原始评分矩阵中形成最终的评分矩阵。
  传统的协同过滤算法输出的是标准排序的Top-N推荐列表。针对标准排序的Top-N推荐列表中多样性较低的问题,本文提出了基于流行度阈值和评分阈值的双向动态排序方法。该方法基于流行度进行列表的重排序,通过设定动态可调的评分阈值来限制流行度排序精确度过低的问题,保证精确度和多样性之间的平衡。同时针对这种方法在推荐流行度过低的项目时由于陌生项目过于陌生造成用户努力上升的问题,本文提出设定流行度阈值,在评分阈值动态可调的基础上,流行度阈值也动态可调,以此来调整推荐列表中的项目陌生程度,在保证了足够的多样性和精确度的同时也提升了用户体验。
  仿真试验基于Movie-Lens和Amazon-Clothes两个稀疏度不同和项目品类不同的数据集,首先针对本文的改进评分矩阵算法进行有效性验证。针对两个数据及使用本文改进评分矩阵协同过滤算法分别采用填充比例由小到大的顺序进行MAE值判定,以确定最优的填充比例;此后将本文改进评分矩阵填充协同过滤算法与SVD算法、原始协同过滤算法、原始加权Slope-One分别使用两个数据集进行仿真试验,以验证最优的近邻数Top-N值;最后基于四种算法两个数据集分别实施五折交叉仿真试验验证,这种对初始的用户-项目评分矩阵进行预测填充的方式,可以有效缓解数据稀疏性,提升推荐准确性。这成功验证本文改进评分矩阵的协同过滤算法的有效性。
  此后针对本文改进列表重排序算法进行仿真试验以验证有效性与动态性。首先基于本文改进双阈值列表重排序方法与动态评分阈值的流行度重排序方法以及标准列表排序方法进行仿真试验。选取不同的流行度阈值和评分阈值,以验证本文改进列表重排序方法的有效性并确定大致的流行度阈值取值范围;此后同样针对三种方法在两个数据集上进行仿真试验,不断调整评分阈值与流行度阈值得出三种算法的精确度和多样性表现,不同的精确度和多样性要求都可以得到对应的评分阈值和流行度阈值的取值,因此本文改进列表重排序方法的动态性也得到了验证。
  本文共分为6个部分,第一章为绪论,第二章为相关理论与相关综述,第三章为基于改进Slope-One算法填充评分矩阵,第四章为改进列表重排序的协同过滤推荐算法,第五章为仿真与结论,第六章为总结与展望。
其他文献
关键词:美术教育;高校美术教师;成长;反思一、美术教育的发展现状  蔡元培先生曾经多次明确提出“以美育代宗教”的美学思想和教育观点,力倡现代美育。“我以为现在的世界,一天天往科学路上跑,盲目地崇尚物质,似乎人活在世上的意义只是为了吃面包,以致增进了贪欲的穷性,从竞争而变为抢夺。我们竟可以说大战的酿成,完全是物质的罪恶。”蔡先生深邃的文化哲学思想引起我们的深思,就是因为活在世上的意义不只是为了吃面包
期刊
周易 1977年生。号澄心阁主人。现为中国书法家协会会员,江苏省书法院特聘书法家,安徽省书法院特聘书法家。昆山青年书法家协会副主席、昆山硬笔书法学会副会长。作品2020年获中国恒美花都杯全国书法展一等奖,2020年获安徽省书法院第二届双年展最高奖;2019年入展第十二届全国书法篆刻作品展览(行书、楷书),2019年获中国书法大厦杯全国书法作品展优秀奖;2018年入展新时代新徽派安徽书画40年精品晋
期刊
在零售行业中,库存是企业不得不面临的现实问题。由于需求的不确定性,零售企业常常面临着缺货或超储的风险。随着互联网技术和共享经济的发展,人们对闲置资源的共享成为了可能,由此零售业的共享库存模式应运而生。越来越多的零售企业为顺应共享经济时代的发展,通过共享库存将原来的单个企业的库存管理进行整合,实现B2B共享库存的融合。共享库存是指当一方缺货时可分享其他零售商多余的库存,不仅可以提高客户满意度,还可以降低库存水平,实现双赢。然而,电子商务双渠道以及双边平台的零售模式的发展趋势给共享库存带来了新的困难。双渠道零
随着中国经济、金融的全球化,金融活动在世界范围内得到了扩展和深化,致使现在中国面临的宏观经济环境越来越复杂。而在金融系统中最为重要的组成部分即为银行系统,因此银行系统所面临的宏观经济环境呈现更加复杂化的趋势。特别是近年来中美贸易战的爆发,造成了中国金融市场的较大波动,中国乃至全球都逐渐形成了以银行为节点的复杂银行网络系统。本文旨在探索中国银行系统在宏观经济波动情况下所面临的银行系统性风险。
  目前针对银行系统的系统性风险研究中主要通过减少某些银行的资产或者增加某些银行的负债造成部分银行的违约从而引
仇高驰 行书 晏殊《浣溪沙·一曲新词酒一杯》 68cm×68cm 2020年  晚清以来,随着考据学的发展和碑学的兴盛,篆书作为一种已经脱离实用的书体重新进入书法家的视野。以邓石如为代表的书法家将隶书笔法引入篆书,以汉碑额为取法对象,开拓出篆书创作领域的一番新境界,与以“二李”为代表的工艺性篆书拉开了极大的距离。此后篆书面目一变,学者云从,传邓氏衣钵者,吴让之取其技,赵之谦师其心,吴昌硕借鉴邓石如
期刊
本世纪以来,随着体验经济时代的来临,旅游领域一直高速蓬勃发展。不过,近期的新冠疫情给旅游业的发展带来了很大的挑战。旅游产业必须重新回归本质,进行有效的改革和创新,提高旅游者的旅游体验质量,才能度过艰难时期。旅游产业或将从高速增长时期转变为高质量发展时期。
  旅游体验的本质是心理层面的情绪感受,提高旅游体验质量离不开对旅游中情绪体验的量化,离不开旅游者为中心的旅游产品评价体系。传统的旅游体验质量测量和KANO模型基于专家建立的评价指标体系通过调查问卷获取数据来进行实证研究。其一,这种研究将旅游产品纯
近年来电子商务快速稳健发展,成为经济增长和社会发展的新动力。其中,时尚服装类电子商务交易额多年排列第一,且该类产品为典型的时尚性、季节性产品,产品体验对消费者的购买行为影响很大。为此,许多互联网企业纷纷利用先进的信息技术、大数据技术加强购物体验服务,以应对网络零售运营的新变化。然而,网络消费者的体验服务如何吸引更多顾客通过电商渠道完成交易,如何维持顾客忠诚度,增加零售商的市场份额和利润,是网络服装零售企业面临的现实问题,在学术上亦有较大的探讨空间。此外,针对时尚潮流瞬息万变且消费者对于服装的购买意愿波动大
服装的流行反映了特定时期内大众对服装的审美倾向和服装产业的文化面貌。对于流行趋势的分析和预测可以在引导消费者追逐时尚、个性的同时提升服装品牌的含金量,所以针对流行的研究和分析历来是时尚产业的焦点。与此同时,伴随着服装电子商务网购平台的不断发展,海量的商品数据涌入。服装商品品类繁多,不论是从款式、季节、年龄、价格、风格、元素等维度来描述服装商品,这一过程都会产生数以亿计的数据。这些数据中蕴含着大量与流行相关的信息,其中就包括对流行进行语义化表示的流行语素。因此,针对服装流行语素的抽取方法与流程研究是极具意义
盧诗韵 生于广州。现为广州画院“先生画馆”副馆长,广东省青年美术家协会主席团成员、广东省中国画学会会员,广州画院特聘画家、广州市美术家协会理事。2014年中国画《一花一世界》入选由广东省文化厅主办的“第十二届广东省艺术节优秀美术作品展”。2017年参加了由深圳市关山月美术馆主办的“丹青传家——当代岭南美术名家邀请展”,作品《一花一世界之二》被深圳关山月美术馆收藏。2019年作品《一花一世界二》参加
期刊
随着互联网的不断发展,货运共享平台逐渐成为货运共享市场中的主导企业并发挥着重要作用。然而,货运共享平台在迅速发展的过程中,遇到的首要困难就是如何制定有效的平台定价策略。货运共享平台的定价策略受到双边用户归属行为的影响,首先,在货运共享市场中平台一边用户的数量大小会影响另外一边用户的效用值,双边用户归属行为的不同会改变平台双边用户数量,进而影响双边用户在加入平台时的效用大小,所以用户不同归属行为给货运共享平台制定最优定价策略带来极大困难;其次,在货运共享平台多期收费过程中,双边用户又存在着不同的前瞻性,导致