论文部分内容阅读
随着互联网和通讯技术的快速发展以及大数据时代的到来,“互联网+广告”(网络广告)的营销模式已经成为企业宣传推广商品和获取盈利的主要渠道之一。近年来,展示广告(Display Advertising)发展势头强劲,是网络广告应用最广泛的模式和最重要的组成部分。在CPC(Cost per Click)计费模式下,广告推荐系统能否准确预估展示广告的点击率(Click-through Rate,CTR)是工业界和学术界研究的核心问题,因为提高广告点击率的准确率有利于提高广告商和广告主的收入,具有十分重要的意义。本文以淘宝网展示广告历史点击日志为实验数据集,以提高广告点击率预估的准确率为目标,在分析了不同类型特征下单一的逻辑回归模型(Logistic Regression,LR)和因子分解机模型(Factorization Machine,FM)的实验结果后,考虑到同一用户特征对不同用户群广告点击行为的影响,提出使用基于用户相似度和特征分化的点击率预估方法(Advertising Click-through Rate Estimation Based on User Similarity and Feature Differentiation,USFD)以提高点击率预估精度。具体主要包含以下几个方面:首先,本文详细介绍了实验数据集和数据集中每个字段的含义,给出了提取训练集和测试集的方法及标准,对连续型特征和离散型特征分别进行了离散化和独热编码(One-Hot Encoding)处理。最后,提出了评价模型性能的指标ROC曲线和AUC得分以及选择该指标的原因。其次,本文使用单一的逻辑回归模型和因子分解机模型对广告点击率进行了预测。通过将具体特征、分类特征和全部特征分别作为模型的输入变量,发现使用全部特征的因子分解机模型预估效果最好,为下一步使用USFD方法选择预估子模型时奠定了基础。最后,由于单一的预估模型没有处理用户特征和用户关系的缺陷,提出使用USFD方法这一组合模型预估广告点击率。它先使用高斯混合模型(Gaussian Mixture Model,GMM)根据用户相似度将用户聚类,然后在各个用户子集下基于数据的全部特征使用因子分解机模型预估点击率。对于每条测试样例,将其与各个子集的相似度作为其在对应子集下子模型预估的点击率的权重,得到测试样例最终的预测结果。实验结果表明,USFD方法比单一模型预估效果好,它的AUC得分相对逻辑回归模型和因子分解机模型分别提高了19.1%和9.6%。