融合特征关联信息表示的点击率预估算法研究

来源 :浙江工业大学 | 被引量 : 0次 | 上传用户:drjcs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
点击率(Click-Through Rate,CTR)预估是计算广告和推荐系统中一个重要且极具商业价值的问题。在这一问题中,数据大多数是以多类别结构化的形式存在。在经过One-Hot编码之后,数据变得稀疏而且数据的维度增大。为了构建一个机器学习模型来解决这一问题,有效地表示特征关联关系至关重要。由于数据稀疏性和模型优化问题,经典的点击率预估任务采用浅层的模型,例如逻辑回归、FM(Factorization Machine)。然而这类模型需要大量的特征工程来表示特征关联关系以提高预测效果,这样不仅需要专业人员花大量时间人工构建特征,而且构造过程需要很强领域知识而且整个过程不具有通用性。本文旨在对特征间的关联信息进行更好的表示,从而提高深度神经网络在点击率预估任务中的性能。目前,点击率预估模型表示特征关联关系的方式比较简单,忽略了不同关联特征对点击率预估结果的影响程度,以及未考虑特征关联关系的多维信息。因此,本文针对关联特征权重信息和多维特征关联信息,基于深度神经网络分别设计了不同的模型,以提高点击率预估的性能。1、在融合关联特征权重信息时,本文提出关联特征权重信息层来表示关联特征信息以及每一个关联特征的权重信息。关联特征权重信息层首先学习关联特征的权重向量,然后用权重向量的积来表示每一个关联特征的权重信息,这样方便后续进行矩阵运算并且有效地提高计算关联特征信息速度;2、在融合多维特征关联信息时,本文基于三维张量分解的方法,构建多维特征关联关系信息表示,其中三维张量的每一个二维矩阵切片表示一种关系。相对于传统的点击率预估方法,本文提出端到端的融合特征关联信息表示的深度神经网络方法能够极大减少人为构建特征工作量并且具有较好的预测效果。本文在点击率预估任务中,将模型与经典的基线模型进行对比评测。实验结果充分说明,关联特征中包含着丰富的信息能够帮助提高点击率预估任务的预测效果,同时也说明本文提出的融合特征关联信息表示模型能够充分利用以上特征间的关联信息,在实际数据集上取得了较好的实验结果。
其他文献
《一个镇的保健品销售路》通过深度报道的形式,将四川省G市石河镇近千人走上卖保健品路的现象呈现给读者。作品通过镇上卖保健品人物的个人经历,他们为何入行为主线,深入挖掘入行背后的经济和社会原因。作品将个人的入行情感和想赚快钱的心理、小地方的血缘地缘影响、当地的经济情况等背后深层次的原因融合,深入报道群体性入行卖保健品背后的社会原因。作品阐述《浅析深度报道的叙事》以小论文的形式,结合《一个镇的保健品销售
神经网络是模拟大脑行为机制进行信息处理的数学模型,因其高度非线性特征和电路可实现性被广泛用于模式识别、组合优化、联想记忆等实际问题中。作为神经网络模型应用的前提,其动力学性质被广泛研究,包括无源性、稳定性等内在动态特性。无源性起源于电气网络理论和物理学的分支,其本质特征上是保持系统内部的稳定性,目前在电路系统、物理学、力学以及应用数学等领域有着广泛的应用。本文主要研究神经网络的无源性问题,分析了时
随着汽车保有量大幅提高,交通事故越来越频发,严重威胁人民财产和生命安全。绝大部分交通事故由异常驾驶行为导致。为了减少交通事故发生,安全辅助驾驶系统研究具有重大应该
叶面积指数(Leaf Area Index,LAI)是评价植物生长发育和健康状况的重要指标。快速、准确地获取植被叶面积指数是评估荒漠化区域植被生长状况和固碳能力的重要前提。荒漠化区
随着互联网的快速发展,无纸化、信息化办公逐渐成为主流,各行业对软件系统的开发需求非常旺盛,使得软件开发行业快速发展。但在业务快速增长和变化的过程中,应用开发领域产生
教育部最新版的《大学英语教学指南》(征求意见稿)中把专门用途英语作为大学英语教学的三大主要内容之一,首次针对其内涵、特点、级别、教学安排进行说明。专门用途英语课程
同伴反馈是一项重要的学习活动,学习者以小组为单位合作对彼此的作文反馈、提出改进建议。该方法是形成性评估方法中的一项分支,应用于外语教学,尤其是在高等教育范围。前人
如今,随着汽车的普及,其成为人们日常生活工作中一部分,同时也带来了严重环境问题,电动汽车应运而生。其将逐渐成为汽车产业的主导力量,并成为社会发展过程中不可或缺的力量
平移变换是一种在卷积神经网络训练过程当中广泛使用的数据增强方法。本文用数学方法分析了平移变换的物理含义,发现了平移变换的方法会使卷积神经网络在训练过程当中关注于训练图片中心区域的特征,从而使得卷积神经网络的感受野变得不均匀。如果用厚度表示感受野各区域被关注的程度,则平移变换使卷积神经网络在训练过程当中的感受野呈现出中间高、四周低的“金字塔”型分布。人类的视网膜的感受野各区域的分辨率是不相同的:中心
自越南革新开放以来,经济、社会、文化、科技等领域快速变革,新的事物、现象、概念层出不穷,越语词汇不断发展以满足新的交际和表达需求。占据着越语词汇系统“半壁江山”的汉越词亦不例外,它也紧跟着时代的步伐,不断地丰富与完善。对革新开放时期的汉越词进行研究,能够帮助我们更好的把握越语词汇发展的新趋势,从中透视出越南社会文化的发展面貌。本论文将研究范围限定为越南革新开放时期新出现的汉越词(包括固有汉越词衍生