淘宝商品个性化推荐算法的研究

来源 :东北林业大学 | 被引量 : 0次 | 上传用户:kuba
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代的来临,使得信息过载现象日益明显。推荐系统的产生与不断发展有效缓解了这一问题。但是,随着人们生活质量的提升,个性化的需求凸显出来,如何针对不同顾客的个性化需求进行精准的推荐,成了当今研究的热门话题。本文将针对这一问题,对个性化推荐算法进行研究,并提出了两种针对不同数据集情况下的个性化推荐模型。主要研究内容如下:针对淘宝平台中有评语的小样本行为数据集进行推荐时,往往存在数据集的不平衡和样本稀疏问题。针对不平衡数据集分类问题提出一种新的模型,该模型首先对不平衡数据集中的在决策边界的少类样本利用TSMOTE算法进行循环合成,然后将新合成的少类样本集与决策边界外合成的少类样本集合并,以此进行过采样处理,从而提高少数类样本的重要度;其次,对于SVM在分类过程中由于数据不平衡导致的训练时超平面偏移现象,将DEC算法作为分类器的分类算法,并利用客观的标准差选取惩罚系数,提高了分类算法的性能。为了降低数据集稀疏性,本文引入KNN与改进的SVM混合来进行预测,该模型首先通过二分类得到得到“喜欢”和“不喜欢”两类。再通过KNN与SVM混合的协同过滤分类模型进行SVM多分类评分预测,最后进行Top-N推荐。由于淘宝网的用户行为数据量很大,所以采用单一的推荐方式很难取得良好的推荐效果。因此,本文提出一种融合时间上下文的UserCF、ItemCF和Xgboost算法进行集成的模型进行个性化的推荐。首先通过融合时间上下文的UserCF对数据集进行粗粒度召回。再使用经过预处理和特征设计与提取的新样本进行Xgboost训练并进行CV调参得到训练好的Xgboost预测模型。最后,进行最终的列表推荐。根据SVM适合处理小数据集和Xgboost集成学习适合处理大型数据集的特点,并且利用本文提出的优化方法分别对淘宝商品不同场景的数据集进行了实验,准确度都得到了提升。其中,本文提出评语分类推荐模型的实验结果证明了本文的分类模型可以通过精确的分类为客户提供决策支持;改进的Xgboost模型在准确率、召回率和F1值都有所提升,均方误差MSE、均方根误差RMSE和平均绝对误差MAE值比较,也印证了本文的推荐模型具有更高的准确性。
其他文献
浮式液化天然气生产储卸装置(FLNG)技术是一种用于海上天然气田开发的浮式生产装置,通过系泊系统定位于海上,具有开采、处理、液化、储存和装卸天然气的功能,并通过与液化天
目的探讨预防心脏术后婴幼儿枕后压疮的最佳措施。方法将200例心脏术后婴幼儿(年龄7d~1岁)按照随机数字表法分为对照组和观察组各100例。两组均需抬高肩背部以开放气道辅助通
会议
目的观察舒心通脉组方用于慢性心力衰竭(心衰)心肺气虚证中西医结合治疗的效果以及药学监护的作用。方法 82例慢性心衰心肺气虚证患者,随机分为对照组与观察组,各41例。对照组
在实际海洋工程中,细长柔性结构物的涡激振动问题广受关注。该文基于切片模型,采用课题组基于开源CFD求解器OpenFOAM自主开发的,面向柔性立管涡激振动问题的viv-FOAM-SJTU求
随着城市化的进一步加深,现代城市建设的核心内容——市政工程的重要性日益明显。社会监理、企业内部质量控制和政府监管三大部分组成了我国现行的市政工程质量管理体系。但
幼儿园要'以游戏为基本活动'。游戏是幼儿自发、自主、自由开展的活动,而沙水游戏因其自身具有的自然性、开放性、表现性和探索性等多元特征,深受幼儿的喜爱。然而,
<正>为了解决甘蔗旱害问题,除了加强灌溉工程设施建设和选育耐旱品种外,还可通过栽培措施与化学调控改善甘蔗自身的耐旱能力来实现。自1996年廖维政偶然发现乙烯利可明显提高
会议
<正> 随着个人电脑的普及,上网对护士已不是陌生的名词。作为一名护理人员,我们应怎样充分利用网络上的丰富资源,有效、正确指导我们的工作、学习和生活,确实值得我们大家一
会议
<正>日前,由上海国有资本运营研究院联合长三角养老协会联合体、上海养老服务行业协会共同主办、上海养老产业研究中心承办的养老产业大讲坛在沪开讲。全国老龄办党组成员、
会议