基于集成学习模型的电商产品推荐算法研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:gmzz2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在互联网时代大背景下,每天都有大量的数据产生,不同的用户拥有着个性化的需求差异。如何在海量数据中挖掘出用户的需求偏好,并依此向用户进行高效而精准的个性化推荐一直是推荐算法所追求的目标。但由于用户个性化信息难以获取,用户的兴趣也会实时迁移,因此大数据环境下的个性化精准推荐仍然面临着严峻的挑战。本文首先介绍了推荐系统的预备知识,再依次介绍了后续模型建立所需要的相关理论基础,即:极端梯度提升树(XGBoost),轻量级的高效梯度提升树(LightGBM),以及基于Facebook论文中梯度提升树与逻辑斯蒂回归融合模型(GBDT+LR)的改进模型XGBoost+LR融合模型。之后,基于某电商平台数据中用户对商品的点击数据集,分析可能影响用户点击行为的特征因素,通过对不同的数据量级、不同的缺失值填充方法、不同的模型进行对比实验,得出使得模型评价指标达到最优的数据集大小、缺失值填充方法以及模型类别。本文创新点在于:将用户对商品的兴趣度作为集成学习模型的训练数据,根据兴趣度高低进行排序推荐;对部分用户和商品属性信息的缺失现象进行基于行为相似度的个性化填充,经过对比实验,该方法可进一步提升模型性能;特征处理方面新增多个统计类特征,而在最优模型的特征重要性排序中,统计类特征所占据的重要性最大;在模型构建方面,利用XGBoost、LightGBM以及基于GBDT+LR改进后的XGBoost+LR模型对用户的兴趣度进行回归预测,并对各模型输出结果进行对比,选择评价指标表现最优的模型作为本文数据集的最佳推荐算法。最后,经过对模型结果的评价分析,得出结论:基于一万条点击记录,数据中的缺失值经过个性化填充后投入XGBoost模型进行训练,将会得到最优的推荐结果。
其他文献
碳纤维增强复合材料(Carbon Fiber Reinforced Polymer,CFRP)因其轻质高强、抗腐蚀性强、抗疲劳性强等卓越性能广泛应用于航空、建筑、船舶等领域中;但由于CFRP材料的剪切强度、层间拉伸强度和层间剪切强度仅为其抗拉强度的5%~20%,使得CFRP索的连接与锚固成为突出问题。CFRP环带拉索采用层带缠绕的方式,既发挥了 CFRP的材料优点,又解决了端部锚固问题;作为桥梁结
随着市场经济的发展,寿险公司逐渐发展壮大。在寿险公司迅速发展之时,公司所面临的竞争也日益激烈。同时寿险业在经营上具有金融行业所特有的脆弱性和敏感性,客观环境变化、决策失误、经营不善等原因,均有可能使其资产、信誉遭受损失,甚至引发财务危机,使公司破产或者倒闭。而其经营状况不仅关系自身利益,还会对整个金融行业甚至国家的金融稳定、社会安定和经济发展产生重要的影响。作为寿险公司的监管者,应该提前做出预警,
水声信道具有复杂多变的特性,使得水声通信存在可用带宽小、延迟大、环境噪声干扰强、多径效应严重等问题。正交频分复用技术(Orthogonal Frequency Division Multiplexing,OFDM)能够有效地对抗多径衰落,一直是水声通信的研究热点。然而,OFDM水声通信技术仍存在频谱效率较低、带外泄露过大、对频偏敏感等缺陷。正交频分复用/偏移正交幅度调制(Orthogonal Fr
隐喻广泛存在于人们生活中,是人们认识世界、了解世界的一种思维方式。80年代认知科学的发展,加深了人们对隐喻认知特性的研究。大量与隐喻理解任务相关的模型也相继问世。但由于隐喻理解自身的难点,相较于隐喻识别任务,隐喻理解的相关研究较少。因此,对隐喻理解任务特点的分析以及相应解决措施的研究就显得尤为重要。本文从认知隐喻学和语言学理论出发,通过研究汉语隐喻的特点以及理解过程,对汉语隐喻理解的难点进行具体分
本文在笛卡尔网格上构造了求解双曲守恒律方程的高阶有限体积形式的逆Lax-Wendroff边界处理方法。由于内部高阶格式需要较大的模板,并且边界与网格可能以任意形式相交,这为处理数值边界提出了巨大的挑战,为了更好地给出虚拟值,Tan和Shu提出了双曲守恒律方程有限差分形式的逆Lax-Wendroff边界处理方法[32][33][34]。有限体积格式相比有限差分格式处理守恒律方程更有优势,但是在边界附
随着人工智能和机器人技术的快速发展,智能机器人已经具备了理解、学习、以及感知的全方面能力。机器人书法作为智能机器人领域重要的应用,其在历史、文化和工业领域都有着重要意义。当前关于机器人书法的研究主要集中在构建控制算法上,其书写方式多样化以及书写结果的多样性仍值得探索。本文通过设计基于LSTM(Long Short-Term Memory)和生成对抗网络的机器人笔画书写方法和构建机器人个性化完整汉字
随着我国证券市场的不断发展,上市公司数目不断攀升,如何利用有限的监管资源实施高效监管,并进一步提高上市公司质量以促进经济持续健康发展成为监管部门的重点问题。深圳证券交易所采用的方式是“抓两头,带中间”以及“共建上市公司群体之间良性互动机制,发挥细分行业龙头的聚集、示范、带动效应”。2019年11月,证监会印发了《推动提高上市公司质量行动计划》(以下简称《行动计划》),力争通过3到5年的时间,使得存
在对国外研究李白的情况作材料梳理及分析的基础上,根据时间线索溯源至德国浪漫派“新神话”创造理论,将英美世界中的李白及其一系列传播译介现象总结为“李白神话”,研究其核心特征与西方思想文化史的联系,并从宗教、社会思潮和文化等维度探讨李白神话在西方被构建、运用的意义。首先简要论述了李白神话的发端背景,并结合启蒙思想运动以及18世纪中叶前西方对中国的看法,即“自然理性的理想国”,因而这一时期的李白被更多地
光合作用,通常是指植物吸收光能,将CO2和H2O合成淀粉等有机物,同时释放出O2的过程,地球上几乎所有的生命活动的能量都来源于光合作用。光合作用类型有C3光合途径、C4光合途径、CAM(景天酸代谢),其中C3、C4光合途径是绿色植物的主要的光合类型。C4植物的生产潜力远远高于C3植物,为了更好地利用C4光合作用的优势,许多研究尝试将C4光合作用的特征引入到C3作物中来提高其生产率。研究表明C4光合
四环素类抗生素药物具有价格低、广谱杀菌性能的优势,是全世界生产和使用最广的抗生素类药物之一,因而产生了大量含有四环素的废水。四环素废水未经处理或者处理不完全就进入环境,会给人类健康和环境带来潜在的风险。例如:产生耐药细菌、影响环境中微生物生长、破坏生态平衡、威胁人类健康等。目前已经有很多方法处理四环素废水,但是由于四环素的低生物吸收和难降解等特性,导致降解效率不高。因而,探索高效处理四环素类抗生素