【摘 要】
:
点击率预估作为广告投放领域的核心问题,近年来不断受到学者的关注。然而,当前广告点击率预估问题仍然存在以下难点:第一、数据量大。在互联网用户规模庞大、增长速度快的背景之下,广告日志数据一天就可达百万级,因此更高的实验设备和更高的技术被企业所需要。如何充分利用设备和模型提高大数据训练、预测速度是广告点击率预估的难点之一。第二、高维稀疏特征处理。一方面,从对广告日志进行特征提取到模型训练都涉及到高维稀疏
论文部分内容阅读
点击率预估作为广告投放领域的核心问题,近年来不断受到学者的关注。然而,当前广告点击率预估问题仍然存在以下难点:第一、数据量大。在互联网用户规模庞大、增长速度快的背景之下,广告日志数据一天就可达百万级,因此更高的实验设备和更高的技术被企业所需要。如何充分利用设备和模型提高大数据训练、预测速度是广告点击率预估的难点之一。第二、高维稀疏特征处理。一方面,从对广告日志进行特征提取到模型训练都涉及到高维稀疏特征的处理,比如设备编号可能有上千种,那么一个特征维度就达上千。而且,传统的经过编码之后的特征维度可达百万级,且十分稀疏。另一方面,传统的机器学习模型预测点击率常常需要专家进行人工特征处理,比如特征组合。这样的人工特征处理常常无法准确把握特征内部隐含的交叉关系,而且拟合高阶特征需要消耗大量精力。第三、数据类别不平衡。将广告点击率预估问题看作是一个二分类模型,1表示点击、0表示未点击。个体在上网时对于推送的广告常常点击的很少,可能一页几十个广告只会点击一到两个,那么就会存在训练数据不均衡的问题。已有研究表明,大多数模型是基于一个相对均衡的样本分布来训练数据的,而极其不均衡的广告数据可能会影响到整个预估效果。批量归一化的优化方法是2015年提出的有效的神经网络优化方法,目前还没有有学者用于广告点击率预估问题中。在研究已有模型的基础之上,本文采用重采样技术对数据做前期处理使得模型训练速度大大提升,同时在DeepFM模型结构中加入批量归一化层使得模型预测性能有了较为显著的提升。本文提出了一个改进的广告点击率预估模型:基于欠采样技术的BN-DeepFM广告点击率预估模型。具体内容包括:第一,为了消除样本类别不均衡对模型预测性能的影响,将欠采样技术应用于实验数据集。结果显示,模型预测性能与采样之前相比几乎没有差距,但是却大大提升了模型训练速度。第二,研究了不同激活函数层和批量归一化层对深度神经网络的优化程度的影响。结果显示:relu激活函数较sigmoid激活函数和softmax激活函数更优,并且在深度神经网络的隐藏层里加入批量归一化层相较于用relu激活函数又更优。理论上,批量归一化层的方法能提高模型的泛化能力和训练速度。实验结果表明模型的预测性能较不加批量归一化层提升了1%,但是在本文的的实验结果中模型的训练速度几乎没有提升,原因可能是经过欠采样处理之后数据量减少,模型的训练速度相比欠采样之前本来已经有了大幅提升,因而在欠采样技术上的数据集中批量归一化没有起到加速的作用。第三,针对高维稀疏的输入数据做了嵌入层处理。将独热编码之后的维度不同的特征向量映射成维度相同的低维稠密的嵌入向量,映射权重用因子分解机模型训练所得。第四,将深层学习模型与浅层学习模型在数据集上进行对比,结果显示深层学习模型预测性能较优。这是因为浅层学习模型通常只利用了低阶特征,而深层学习模型能自动学习高阶特征,可以更好地利用用户行为背后隐含的信息。
其他文献
土壤作为生态环境中重要的要素之一,对整个生态系统的稳定具有重大意义。土壤污染危害严重,不仅影响人们的身体健康,而且破坏生态环境,影响生态系统的稳定性。常州毒土地案中的土壤污染问题一经报道便受到了社会各界的密切关注,此案中关于土壤污染修复责任主体的确定更是各方关注的焦点所在。面对频繁发生的土壤污染事件,以何种方式能够合理、有效地确定土壤污染修复责任主体是解决土壤污染问题的关键环节。2019年1月1日
数字时代的来临,使得几乎所有领域都在发生“数字蝶变”。以大数据、人工智能、移动通讯、云计算、物联网等为代表的新技术,日益改变着我们的生存环境与组织业务、结构。与此同时,我国推出深化文化体制改革,推动社会主义文化大发展大繁荣,建设社会主义文化强国的重大战略目标。为了适应数字时代的发展变化、优化媒体内容生产与传播,传统媒体必须换脑筋、变思路,传统纸质媒体更要主动适应发展大潮,抓住机遇、迎接挑战。在此时
“职业打假”现象无论是在社会舆论中还是司法实践或者学术理论当中都是一个备受争议的话题,对“职业打假”的现象相关内容研究,如“职业打假”人的法律地位、“职业打假”人是否能够适用惩罚性赔偿制度、惩罚性赔偿制度研究是学者的研究重点,但是针对“职业打假”现象本身,少有学者进行讨论。“职业打假”群体的存在给市场、监管机构和司法机关带来的影响已经不能凭借打假的积极作用而予以忽视,特别是2017年5月最高院对人
财务风险事关企业的生死存亡,一直是企业财务管理的重中之重。柔性电路板(Flexible Printed Circuit Board,简称FPC)是被誉为“电子工业之母”的电子信息产业核心基础组件的一个重要分支,相较于其他行业,具有明显的特殊性,再加之当前外有中美贸易摩擦,内有经济下行压力,行业竞争更是与日俱增,在这样全新的经济背景下,如何有效防范和控制财务风险、优化企业财务风险管理已成为当前亟待研
随着金融科技的快速发展,在“强监管、去杠杆、紧约束”的现实环境下,我国商业银行传统的“重对公,轻零售”发展战略面临严峻挑战。一方面,公司类业务经营困难加重、不良贷款持续上升、盈利水平不断下滑。特别是城商行与大型银行相比金融科技水平有限,既无管理优势又缺乏风控实力,长期依附信贷投放和资本消耗的外延扩张模式恐难以为继;另一方面,零售业务天然具有低成本、风险分散的特点,易获取稳定客群,符合市场发展方向。
最近几年,并购风潮席卷中国资本市场,许多并购都设有业绩承诺条款。业绩承诺作为并购估值调整机制,在一定程度上可以增加并购的稳健性,保护并购方投资者的利益,但标的公司业绩压力增加,这种压力很可能诱发财务舞弊,从而大大增加注册会计师的审计风险。业绩承诺下的审计失败案例并不少见,但当前国内事务所在承接年报审计业务时仍然对业绩承诺关注度不足,对其可能带来的审计风险缺乏全面系统的把握,而学术界和理论界针对设有
健康是人类普遍而又永恒的主题,追求健康是新时代全体居民的基本权利。良好的健康状况需要长期可持续的医疗保险制度作为保障,为此,我国政府提供了以新农合、职工医疗保险、城镇居民医疗保险“三位一体”的医疗保险制度。然而,不同的医疗保险制度提供的补偿待遇水平和筹资缴费水平、定点的医疗机构服务质量等均有显著差异。为了缩小城乡医疗保障待遇差距,弥补医疗资源分布严重不均等突出问题,国务院在2016年初发布了《关于
破产重整程序追求多元化目标,与破产清算程序相比,债权人利益更易被侵害。基于此,在对债务人适用重整程序时,尤要高度关注债权人利益之保护。而重整程序中的债权人保护,首当其冲便是对债权人知情权的保护。知情权是债权人在重整程序中行使债权核查权、表决权、监督权等重要权利的基础和前提。我国《企业破产法》明显缺乏对破产重整中债权人知情权保护的规定,最高人民法院发布的《破产法司法解释(三)》虽然在一定程度上强化了
近年来,随着监管层多项利好政策的出台,在刺激经济发展的同时,也引发上市公司并购热潮,使得A股上市公司商誉几乎呈直线上升趋势。在证监会会计监管风险提示8号公告的出台、财政部关于“商誉及其减值”议题的讨论之后,多家上市公司因商誉减值导致业绩“地雷”,使得商誉减值风险及防控措施的学术研究价值和现实意义显得尤为重要。因此本文的研究重心是商誉减值风险及防控措施,以案例研究为分析工具,深入探究导致商誉减值风险
我国《商标法》中的“不良影响”条款作为商标禁止注册的绝对事由之一,自1982年以来,一直存在于各修订版本的《商标法》之中。但由于“不良影响”条款表述不够明确、调整范围不够清晰,在适用该条款上存在诸多问题及矛盾之处。2020年初在我国新冠肺炎疫情防控期间一些申请人将“火神山”“雷神山”“瑞德西韦”“李文亮”等名称申请为注册商标,引发学界和社会公众热议。从现有研究资源来看,对于“不良影响”的概念以及内