【摘 要】
:
电子商务行业在快速发展的同时,信息量呈爆炸式增长,人们淹没在信息过载问题中,推荐系统应运而生。在大数据时代下,传统的推荐算法不再能满足需求,本文根据天池竞赛提供的用户行为数据,基于特征工程和模型构建两个方面,构建用户购买商品的概率预测模型,从而提高商品的购买转化率。本文首先对原始用户行为数据进行探索性分析并清洗数据,为后面的模型提供数据支撑。其次从用户、商品和用户行为三个角度出发,构造了近100维
论文部分内容阅读
电子商务行业在快速发展的同时,信息量呈爆炸式增长,人们淹没在信息过载问题中,推荐系统应运而生。在大数据时代下,传统的推荐算法不再能满足需求,本文根据天池竞赛提供的用户行为数据,基于特征工程和模型构建两个方面,构建用户购买商品的概率预测模型,从而提高商品的购买转化率。本文首先对原始用户行为数据进行探索性分析并清洗数据,为后面的模型提供数据支撑。其次从用户、商品和用户行为三个角度出发,构造了近100维的特征。最后以(用户,商品)对作为样本,拼接特征,存储实验数据集。本文重点在于模型建立过程,选择随机森林、XGBoost和Light GBM三种基于树模型的机器学习方法进行建模。随机森林模型中,分别将基础特征和全部特征的实验数据集代入模型进行训练,模型准确率在加入衍生特征后提升了约3%。接着使用嵌入法对特征进行优化并对模型进行调参,输出最终AUC值为0.9145。以随机森林为基础,使用XGBoost对模型继续提升,解决了正负样本比例不平衡问题,在优化特征集合并进行模型调参后,XGBoost模型的AUC值为0.9285。最后使用Light GBM优化模型的运行时间,最终AUC值达到了0.9256。综合模型的运行时间和多个模型评估指标,选择了Light GBM方法对用户潜在购买概率进行预测。
其他文献
随着国家经济持续发展,我国已进入消费需求持续增长、消费拉动经济作用明显增强的重要阶段。与此同时,社会上奢侈消费与过度消费现象不断滋长,这种消费理念对于环境保护和经济持续发展是极为不利的。因此需要在我国推广绿色的生活方式与消费模式。促进绿色消费有利于消费模式的升级以及推动供给侧改革,可以通过改变消费模式找到新的经济增长点,缓解当前环境压力,推进生态文明建设。党的十八大也要求到2020年“两型”社会的
随着人工智能的不断发展,将深度学习应用于医疗影像分析,可以帮助医生定位病症、分析病情并做出诊断。在临床实践中,支持分类结果的视觉证据,例如异常部位的空间定位或分割,是临床诊断不可缺少的一部分。在这些任务中,模型的预测精度在很大程度上依赖于大量像素级别注释的数据集。然而,对于医疗图像的标注,往往需要具有丰富经验的相关领域专家来操作,使得建立具有像素级标注的大规模数据集具有极大的难度。因此,研究弱监督
首先,本文针对我国目前煤矿企业安全生产形势的严峻性,以系统化、企业战略性发展的角度,进行细致分析,并构建出新型安全管理系统。我们知道,煤矿安全事故的发生,对企业和国家都造成了重大的损失,同时也严重危害工作在煤矿企业开采一线的工人的生命和财产。本文归纳出我国煤矿企业在日常生产过程中所存在的五大类问题以及面临的挑战,并指出在统计的安全生产事故[1]中大部分事故发生的原因均归于“管理失误”。概括国内外煤
随着互联网时代的高速发展,中国慈善公益的传统运作方式被大大改变,公益逐渐走向平民化、移动化。由于互联网特质与民办慈善的高度契合,网络慈善成为当下中国民办组织开展活动的重要形式。截至2018年5月,国内已有20家机构经民政部批准成为合法的网络捐赠平台。本文以通过网络捐赠平台发起募捐请求的公益项目为研究对象,重点研究其筹款能力的影响因素。首先,本文通过集搜客软件在腾讯公益、蚂蚁金服、新浪微公益、轻松公
伴随现代工、农业的发展,水污染问题日益严重。同时,水体污染物种类也日益多样化,研究热点逐渐从传统污染物向新兴污染物(EOCs)转移。实际水环境中,多种污染物复合共存、且彼此
本硕士论文主要研究二维耗散Euler方程组的强轨道统计解以及三维MHD-α方程组的统计解问题.论文首先应用二维耗散Euler方程组的强轨道吸引子构造出该方程组的强轨道统计解,并证明该强轨道统计解具有不变性且满足Liouville型定理.然后论文证明了三维MHD-α方程组的解算子生成的过程存在拉回吸引子,并证明拉回吸引子上存在不变Borel概率测度,且该概率测度满足Liouville型定理,是该方程
随着大数据、人工智能的发展,农业也逐步趋向智能化,形成了智慧农业。智慧农业主要通过感知、跟踪、监测、预测和数据分析等技术对传统农业进行改造,从而实现农业的智能化决策、精准化生产和可视化管理。在现代农业中,农作物的病害类型主要依靠种植人员的经验来判断,容易出现误判病害类别的现象。这不仅阻碍了农作物种植技术的进步和发展,而且带来了一系列的环境污染问题,因此自动化识别植物病害在智慧农业中至关重要。本文将
随着国家对水资源的重视及一户一表等政策的落实,水务公司和用户对智能水表的需求也越来越强烈,智能水表的持续发展需要更多新技术来支持水务公司和用户对水资源使用的管理。
近年来,我国持续推进供给侧结构性改革,促进产业结构的优化升级,虽然在这种情况下,我国混凝土行业的发展较为稳定,但是,对我国混凝土企业来说,其面临的生存环境还是比较复杂和严峻的。目前,我国大多数混凝土企业的绩效评价方法还比较落后,在评价的过程中缺乏战略视角,在此形势下,我国混凝土企业必须转变思想观念,建立以战略为导向的绩效评价体系,提高企业的绩效管理水平。而平衡计分卡就是在战略的基础上进行绩效评价,
有效的描述目标图像以适用于后续的目标识别任务是计算机视觉研究领域的一个基础性的问题。描述叶片图像模式用于植物种类识别和抽取蝴蝶图像特征用于蝴蝶种类识别是目标图像描述中的重要应用。植物叶片图像模式和蝴蝶图像模式一般都有着小的类间差异和大的类内差异,目标的形状扭曲、自遮挡,以及图像获取中的光照的变化,目标图像内部的复杂结构等,都给目标的识别任务带来很大的困难。本文提出了一种称为高斯卷积角不变量描述子,