论文部分内容阅读
网络广告能以较低的成本将商品和服务信息传播到世界的各个角落,逐渐形成了一个以计算和技术驱动为特征的网络广告市场。作为广告系统关键部分,点击率预测建模需要处理广告、上下文、用户三方复杂的信息,识别其中潜在的模式和规律,是行业中具有相当难度的问题,引起了工业界与学术界的广泛兴趣。研究广告点击率预测,对于降低广告投放成本、提升用户体验和提高媒体金融收益,都有重要的理论和实际意义。
近年来,国内外关于点击率预测的研究取得了飞速发展,但仍存在一些需要进一步解决的问题。首先,广告文本数据篇幅短小、结构紧凑、词汇间相关性强,对其进行有效表示是一个难点;其次,现有较新的广告点击率预测模型多采用深度学习或模型集成技术,虽然很大程度上提升了点击率预测精度,但面临含噪声或多字段分类数据且包含文本数据时,仍然存在点击率预测精度受到影响或难于有效建模的问题。针对上述问题,本文从广告文本数据表示学习、面向噪声数据的点击率预测方法、面向多字段分类数据的点击率预测方法三个方面展开了相关研究,主要工作体现在:
(1)针对现有方法没有充分挖掘广告文本数据中潜在语义信息的问题,利用BTM(Biterm Topic Model)模型能高效提取短文本主题的特性,对广告文本进行主题特征建模;主题数目对主题向量有重要的影响,鉴于BTM不能自动获得合理的主题数目,设计了基于密度聚类的主题数目自动寻优方法,旨在获得优良的主题特征向量。
(2)针对传统词汇语义表示模型通常只考虑局部上下文关联关系的缺陷,结合已获取的主题向量,提出了融合主题特征的词汇语义表示建模方法,该方法对全局上下文和局部上下文共同建模,既保留了窗口上下文的词序信息,又增强了主题信息对词汇的影响;通过对词汇语义进行多角度挖掘,获得了语义丰富的词汇表示。在此基础上,设计了两种句子级的短文本表示方法,旨在获得广告文本数据Embedding表示,为点击率预测建模打下基础。
(3)为解决含噪声与文本数据场景下广告点击率预测问题,借助模糊数理论处理噪声与不确定性的优势,提出了面向噪声数据的广告点击率预测方法。该方法引入模糊参数管理神经网络子模型,扩大参数搜索空间,使得数据中的不确定性得到描述;通过堆叠多个子模型构建模糊深度神经网络,可以处理广告数据间复杂的不确定性关系并获得更具区分度的高阶抽象特征,在含噪声与文本数据场景下,能一定程度上提升点击率预测精度。
(4)为解决包含大量分类字段数据与文本数据场景下的广告点击率预测问题,借助Embedding映射网络及因式分解机模型高效处理稀疏向量的能力和树模型处理连续向量的能力,提出了面向多字段分类数据的广告点击率预测方法。该方法借鉴Wide&Deep Learning模型的思路,一方面采用Embeding映射网络和因式分解机对广告分类数据进行建模,然后通过堆叠降噪自动编码机进一步提取高阶特征;另一方面采用梯度提升决策树对广告文本数据进行高阶特征提取,最后将两部分高阶特征拼接后进行点击率预测;这一方案可以高效解决多字段分类数据和文本数据场景下的建模任务,并获得较好的点击率预测效果。
近年来,国内外关于点击率预测的研究取得了飞速发展,但仍存在一些需要进一步解决的问题。首先,广告文本数据篇幅短小、结构紧凑、词汇间相关性强,对其进行有效表示是一个难点;其次,现有较新的广告点击率预测模型多采用深度学习或模型集成技术,虽然很大程度上提升了点击率预测精度,但面临含噪声或多字段分类数据且包含文本数据时,仍然存在点击率预测精度受到影响或难于有效建模的问题。针对上述问题,本文从广告文本数据表示学习、面向噪声数据的点击率预测方法、面向多字段分类数据的点击率预测方法三个方面展开了相关研究,主要工作体现在:
(1)针对现有方法没有充分挖掘广告文本数据中潜在语义信息的问题,利用BTM(Biterm Topic Model)模型能高效提取短文本主题的特性,对广告文本进行主题特征建模;主题数目对主题向量有重要的影响,鉴于BTM不能自动获得合理的主题数目,设计了基于密度聚类的主题数目自动寻优方法,旨在获得优良的主题特征向量。
(2)针对传统词汇语义表示模型通常只考虑局部上下文关联关系的缺陷,结合已获取的主题向量,提出了融合主题特征的词汇语义表示建模方法,该方法对全局上下文和局部上下文共同建模,既保留了窗口上下文的词序信息,又增强了主题信息对词汇的影响;通过对词汇语义进行多角度挖掘,获得了语义丰富的词汇表示。在此基础上,设计了两种句子级的短文本表示方法,旨在获得广告文本数据Embedding表示,为点击率预测建模打下基础。
(3)为解决含噪声与文本数据场景下广告点击率预测问题,借助模糊数理论处理噪声与不确定性的优势,提出了面向噪声数据的广告点击率预测方法。该方法引入模糊参数管理神经网络子模型,扩大参数搜索空间,使得数据中的不确定性得到描述;通过堆叠多个子模型构建模糊深度神经网络,可以处理广告数据间复杂的不确定性关系并获得更具区分度的高阶抽象特征,在含噪声与文本数据场景下,能一定程度上提升点击率预测精度。
(4)为解决包含大量分类字段数据与文本数据场景下的广告点击率预测问题,借助Embedding映射网络及因式分解机模型高效处理稀疏向量的能力和树模型处理连续向量的能力,提出了面向多字段分类数据的广告点击率预测方法。该方法借鉴Wide&Deep Learning模型的思路,一方面采用Embeding映射网络和因式分解机对广告分类数据进行建模,然后通过堆叠降噪自动编码机进一步提取高阶特征;另一方面采用梯度提升决策树对广告文本数据进行高阶特征提取,最后将两部分高阶特征拼接后进行点击率预测;这一方案可以高效解决多字段分类数据和文本数据场景下的建模任务,并获得较好的点击率预测效果。