【摘 要】
:
随着互联网技术的快速发展和网络基础设施的不断完善,我国已有超过7.8亿的人选择在网上购物,大量的用户购买行为产生了海量的数据,电商平台如何利用这些数据,借由机器学习技术对客户未来的购买行为做出预测,已经成为当下的研究热点。购买金额预测是指对客户未来一段时间购买的订单总金额进行预测,企业可以通过购买预测来实现调整备货策略、制定业务人员的销售目标、制定下一个周期的经营预算等目的。为了实现用户的购买金额
论文部分内容阅读
随着互联网技术的快速发展和网络基础设施的不断完善,我国已有超过7.8亿的人选择在网上购物,大量的用户购买行为产生了海量的数据,电商平台如何利用这些数据,借由机器学习技术对客户未来的购买行为做出预测,已经成为当下的研究热点。购买金额预测是指对客户未来一段时间购买的订单总金额进行预测,企业可以通过购买预测来实现调整备货策略、制定业务人员的销售目标、制定下一个周期的经营预算等目的。为了实现用户的购买金额预测,本文以在线批发电商的消费数据为切入点,对数据进行深入分析挖掘和建模,通过建立不同的模型,预测客户未来一个月的购买金额,具体的工作包括:(1)数据探索与特征筛选:首先对本文要解决的问题进行分析,梳理了可能对用户购买行为造成影响的相关因子,并通过数据可视化,对目标量进行探索分析。然后对数据进行预处理,并根据数据分析结果和业务经验进行特征重构,共构建了三个特征群,分别为时序特征群、业务特征群和属性特征群。最后为了减少冗余特征,提升模型训练效率和精度,在外部评估器上对比多种特征筛选方法的效果,实验结果表明,基于SHAP(SHapley Additive ex Planation)的特征筛选法效果最好。(2)预测模型设计:首先针对传统Stacking算法中,K折交叉验证时采用平均值形成测试集的环节进行优化改进,并为元学习器增加了基于SHAP值筛选的原始训练集的强特征,以提升模型的预测能力与鲁棒性。然后选择了四种异质(即不同原理)单一模型作为Stacking模型的基学习器,分别基于传统的Stacking算法和改进后的Stacking算法构建购买金额预测模型。(3)单一模型预测:分别构建了基于随机森林、Light GBM、LSTM和Tab Net等模型对客户购买金额进行预测,并在模型训练阶段引入贝叶斯优化算法(Bayesian Optimization)对模型的超参数进行调优。实验结果表明各个单模型的预测精度较好,但对于不同大小的目标量预测表现不一。(4)异质融合模型预测:首先将四个经过超参数调优且性能较好的单一模型作为基模型,将XGBoost作为元模型,通过Stacking模型融合方法进行融合。实验结果表明,改进后的Stacking模型预测效果最好;接着通过数据可视化的方式分析各个模型的拟合效果;最后通过一个消融实验来研究模型设计的合理性。
其他文献
新药研发往往需要耗费漫长的时间,伴随着高损耗率和巨额成本。缩短研发时间及降低研发成本成为研究的热点,其中利用药物可能与设计以外的靶标分子产生作用的多药理学特性,使“旧”药物治疗新适应症便是一个可行的策略。药物靶标相互作用的正确识别和验证是药物重定位的基础,但是“旧”药物发现“新”靶标的过程充满随机性,且药物和靶标的多样性以及关系的复杂性使得药物靶标相互作用的实验费时且昂贵。通过计算辅助识别筛选出可
<正>中国农业大学园艺学院眭晓蕾教授研究组揭示了黄瓜氨基酸转运蛋白家族成员Cs AAP2间接通过生长素极性运输参与黄瓜根系发育的分子生理机制。利用生物信息学发现,氨基酸转运蛋白AAP亚家族成员Cs AAP2在黄瓜根系中高度表达,Cs AAP2定位于根系中柱组织(维管束Vas和中柱鞘Per)的细胞质膜上。
随着交通传感器的广泛应用和新兴传感器技术的发展,交通流量数据显著增加,通过信息化方法收集和分析交通流量数据并进行短期交通流预测具备了可行性和必要性。然而,交通流是一个实时、完全非线性、高维、非平稳的随机过程,难以捉摸的交通流变化模式自然包含由内部和外部变化(包括交通事故和极端天气)引起的噪声,这使得短期交通流预测成为一项有挑战性的任务。在过去的几十年里,学者们提出了预测不同交通条件下交通流量的简单
异常值检测是数据挖掘领域的研究热点之一,在医学、金融、电信等领域引起了广泛关注。随着科学研究的深入发展和任务复杂性的提升,数据的维度与规模在不断地扩大,这为完成高维数据的异常值检测任务带来了巨大挑战。并且针对不同类型的数据,需要开发不同的方法来完成异常值检测。对于表格型数据,虽然已经提出了许多相关技术,但其中大多数都面临着对象的邻域大小难以确定以及高维空间中的距离不可靠的问题。对于图像数据,基于异
我国修建的数量众多的大断面隧道工程,极大地提高了交通的便捷度。然而,在软弱岩层中修建大断面山岭隧道时,施工过程并不顺利,经常会遇到掌子面失稳、地表塌陷等工程问题。对此,文章以乌鲁木齐绕城高速(西线)工程西山隧道为工程背景,针对软岩及复杂地质大断面长大隧道的施工问题,立足隧道施工过程中不同部位的受力情况,结合现场的工程实例,进行理论分析研究,设计数值仿真试验,并用极差分析法分析试验数据,对大断面软岩
光伏发电被认为是从根本上解决我国能源问题的有效途径。在近三十年里,太阳能电池的开发和应用取得了巨大进展。作为第三代的典型代表之一,染料敏化太阳能电池(dye-sensitized solar cells,简记为DSSCs),由于它具有生产制造成本低廉,环境友好无污染,器件兼容性良好等优势,吸引了广泛关注。然而与前两代传统太阳能电池相比,DSSC器件的光电转换效率(photoelectric con
随着信息时代的飞速发展和人类生活水平的快速提高,柔性压敏传感器在塑造智能技术的方面发挥着举足轻重的作用。压敏传感器的两个主要性能指标分别是灵敏度和检测范围。针对这两个关键指标,科研工作者们设计了不同结构来满足其使用要求,包括传统混合式结构、平面微结构和三维多孔结构。相比较于传统混合式结构和平面微结构,三维多孔结构在兼顾灵敏度和应力检测范围方面表现更好。但是,目前针对三维多孔结构柔性压敏传感器的各项
语音信号作为人类生活与工作中最重要且不可或缺的交流手段,在学界研究领域与业界应用领域受到很高的重视。每个人的语音特征都是独一无二,从理论上讲,语音特征,或者被称为声纹,就像人类的指纹一样,几乎不会有两个人拥有相同的声纹。因此,可以通过对不同人的声纹进行识别,从而实现识别不同人身份的目标。而这种技术,就被称为声纹识别,或者说话人识别。与人脸识别,虹膜识别和指纹识别一样,声纹识别也属于生物识别技术。在
推荐系统(Recommender Systems,RSs)经过几十年的科研探索以及商业应用,目前已经发展成为一种用途广泛的基本工具,可以在我们工作、生活、商业运作、学习、社交和娱乐等各个日常方面提供更有信息量及效率的选择。在内容服务日益过载的数字经济时代,用户需要从大量快速增长的内容、产品和服务中做出选择,推荐系统的作用已变得不容忽视。由于推荐系统拥有巨大的应用价值,近几十年来它始终处于研究热门领
无机CsPbI3材料由于优异的半导体特性、出色的热稳定性成为光电领域的明星材料,引起了相关领域内学者的普遍关注。经过几年的发展,CsPbI3钙钛矿太阳能电池的功率转换效率(PCE)已经超过了20%。然而,由于CsPbI3材料中容忍因子的限制(组分Cs+尺寸太小),使其在室温下无法维持长期稳定的相结构。鉴于此,我们提出了在CsPbI3中引入难挥发的大体积有机阳离子来诱变本征的三维结构,使其沿特定的晶