论文部分内容阅读
互联网的蓬勃发展在当今世界掀起了一波又一波的科技浪潮,社会生产力得到了快速发展,国家经济实力和人们的生活水平都得到了显著提升。近年来又是以移动互联网为主要推动力,推动着社会生产力不断向宽度和深度发展,其影响力之广,促使了各行各业不断追求转型升级,其影响力之深,渗透到了人们的日常生活,改变了人们的生活方式。在移动互联网这片沃土之下,大数据、人工智能、物联网等新兴技术的崛起,将人民生活水平提升到了更高的档次。便捷的支付方式和全新的消费体验刺激着人们的购买力,人民对美好生活的向往也对移动互联网技术提出了更高的需求。各个销售商需要对产品进行推广,就需要有性能优良的在线广告系统提供技术支持,将广告精准快速的推送给消费者,降低流量和广告成本的同时,提升了用户体验,对技术发展产生正向促进作用。精准快速的在线广告系统,需要在较短的时间内计算出广告排序,将用户最有可能点击的广告推送给用户,衡量点击可能性的指标,就是广告点击率。
在传统的广告点击率预估系统中,会采用简单的逻辑回归模型,这种方法能够快速适应训练,工业界上也已经大规模部署。借助计算机硬件资源发展的红利,计算性能更高的机器得到学术界和工业界的普及,神经网络深度学习技术在图像和自然语言领域取得了不错的成绩,在个性化推荐系统和点击率预估系统之中也逐渐被应用。目前点击日志的数据集特征表现为数据维度大,有效数据高度稀疏,常见的处理方法会先对特征进行降维,用非线性方法提取特征组合,最后通过神经网络等高度抽象的非线性算法进行训练预估。本文的主要研究内容从以下三个方面进行:
(1)探索传统的机器学习方法的优缺点和适用场景,比较现有的融合模型方法,尝试用独立简单的模型进行模型融合求解预测。本文先后比较了线性模型LR和非线性模型决策树以及因子分解机家族算法的优缺点,利用XGBoost进行特征提取,融合上述的几种模型,最后得到一种基于模型融合的点击率预估算法XG-FwFM,用于之后的实验对比。
(2)探索比较神经网络和深度学习模型的有缺点和使适用场景,结合现有的深度学习融合模型,对现有的高阶融合模型进行改进。在基于之前的简单模型融合的经验之上,继续探求深度学习模型在点击率预估中的应用,同时兼顾融合模型的准确度和时间成本,进行特征工程的维度上进行改进,最后得到一种改进的深度学习模型融合算法XG-DFM,用于之后的实验对比。
(3)基于两个大规模真实广告点击率数据集上进行数据清洗和特征工程,设计对比实验验证上述算法的优越性和实用性,实验结果表明模型融合理论在点击率预估场景下有促进作用。
在传统的广告点击率预估系统中,会采用简单的逻辑回归模型,这种方法能够快速适应训练,工业界上也已经大规模部署。借助计算机硬件资源发展的红利,计算性能更高的机器得到学术界和工业界的普及,神经网络深度学习技术在图像和自然语言领域取得了不错的成绩,在个性化推荐系统和点击率预估系统之中也逐渐被应用。目前点击日志的数据集特征表现为数据维度大,有效数据高度稀疏,常见的处理方法会先对特征进行降维,用非线性方法提取特征组合,最后通过神经网络等高度抽象的非线性算法进行训练预估。本文的主要研究内容从以下三个方面进行:
(1)探索传统的机器学习方法的优缺点和适用场景,比较现有的融合模型方法,尝试用独立简单的模型进行模型融合求解预测。本文先后比较了线性模型LR和非线性模型决策树以及因子分解机家族算法的优缺点,利用XGBoost进行特征提取,融合上述的几种模型,最后得到一种基于模型融合的点击率预估算法XG-FwFM,用于之后的实验对比。
(2)探索比较神经网络和深度学习模型的有缺点和使适用场景,结合现有的深度学习融合模型,对现有的高阶融合模型进行改进。在基于之前的简单模型融合的经验之上,继续探求深度学习模型在点击率预估中的应用,同时兼顾融合模型的准确度和时间成本,进行特征工程的维度上进行改进,最后得到一种改进的深度学习模型融合算法XG-DFM,用于之后的实验对比。
(3)基于两个大规模真实广告点击率数据集上进行数据清洗和特征工程,设计对比实验验证上述算法的优越性和实用性,实验结果表明模型融合理论在点击率预估场景下有促进作用。