SEM广告投放关键词推荐系统的设计与实现

来源 :上海财经大学 | 被引量 : 0次 | 上传用户:chester116
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
广告,是广告主向他人推销自己产品或服务的一种方式,此方式不仅方便快捷,实际上也成为广告主商业变现的很大一部分来源。随着互联网的发展,广告的形式已逐渐从线下转换到线上平台,其中应用最广泛的便是互联网搜索广告模式,该模式以付费手段来提高网站的权重,结合搜索引擎根据用户的即时兴趣定向投送广告。该模式被称为搜索引擎营销,已经逐渐成为各大广告商的首选,这其中最关键的步骤就是需要从广告中提取出一系列关键词,再将这些关键词投放到搜索引擎当中进行竞价,当该广告被用户点击之后,会根据投放时该词的价格进行相应扣费处理。该核心步骤的实现目前存在以下两个方案:一是大量依赖人工推荐,即使用人的过往经验和主观判断进行关键词提取,该方法劣势在于所耗费的时间成本过高,不可批量化处理,优势在于提取出的关键词词均成本低,产生的实际花费较少;二是依赖搜索引擎推荐,即使用搜索引擎提供的服务进行关键词抽取,该方式的优势在于可以批量化处理,时间成本低,但出于搜索引擎方盈利的目的,该方式的劣势体现在其推荐的关键词词均成本过高,产生了大量的开销。本文针对现有方案所存在的问题,将这一环节进行优化,内化人工经验,使用相关方法为SEM广告投放设计并实现一套关键词推荐系统。主要提供三点贡献:一是自定义命名实体的含义,即将关键词作城市、核心以及其他特征的三块划分,并训练相关模型使得关键信息的抽取更符合投放要求,不仅使得分词更加准确,也使得相关模型的特征更加丰富;二是提出Textrank-IDF算法进行文本特征抽取,并对比使用其他抽取模型,实验表明该方法有着明显的优势;三是应用层面的创新,本推荐系统的设计目标是能够高效地、不依靠人力地、推荐出成本较低的词,同时为满足上线的要求,平均响应时间要达到一秒以内。为保证词库的丰富性,本文在词库建设阶段加入搜索词清洗规则,并训练违禁词审核模型进行数据过滤。内化相关逻辑之后形成闭环,可以将用户的搜索以及点击行为及时反馈,实现词库的每日自动清洗以及更新。本文的关键词推荐算法主要分为三个环节:召回层、粗排层以及精排层。召回层利用的是关键词的相关索引进行索引召回;粗排层使用基于文本内容相似的推荐算法进行实现;精排层设计点击率预估模型和成本预估模型,目的是期望在控制点击率的同时控制成本。在线上实际推荐时使用三层逻辑进行层层筛选,最终为单个广告推荐出至多五十个关键词。本文最后采取离线模拟测试的方式对该算法进行验收和评价,测试结果表明各指标均达到项目的预期,符合标准。
其他文献
基于深度学习的、与年龄相关的人脸图像分析已经成为计算机视觉领域的一个重要研究内容,在众多深度神经网络模型中,生成对抗网络是最具魅力的模型之一,它强大的生成能力让我们可以完成许多有趣的事情,例如图像风格迁移、文本到图像的合成、图像超分辨率、人脸衰老图像生成、图像修复等。人脸图像衰老合成作为一个应用范围非常广泛的研究方向,包括追捕通缉犯、寻找走失儿童、自动升级职员数据库、提高人脸识别系统的鲁棒性以及科
学位
近年来,随着全球性的经济发展以及世界各地区的经济增速和动能的衰弱,以及全球性的债务水平的升高以及金融市场的局部动乱等一系列问题的日益加剧,资本直接进行的投资活动也略显较为低迷。尤其是2020年新冠病毒疫情爆发以来,美国、欧洲和其它许多国家政府不尽如人意的处理,导致投资者对经济发展形势进一步看衰,全世界范围内的经济十分不稳定。在此背景下,黄金和许多其它虚拟货币的价格均出现了较大幅度的上涨,加剧了相关
学位
线性双自回归模型(Linear double autoregressive(DAR)models,LDAR)可以用来很好地拟合厚尾数据,它的条件均值和条件标准差部分均采用了线性结构,其模型结构使其更加具有稳健性。目前,线性双自回归模型已有的估计方法是由Zhu et al.(2018)提出的双加权分位数回归估计(DWQRE),最优DWQRE估计量的渐近方差在特定的条件下可以达到CR下界,该估计量的渐
学位
在社交媒体高速发展的今天,网络上的社交文本形成了一个极具价值的文本库,尤其是对于美妆品牌而言,中国市场的美妆行业近几年正在急速扩张,其中新模式社媒营销起了很大的推动作用,比起其他行业,美妆行业是较早应用互联网技术进行社会化媒体营销的行业之一,因此社交文本成了该行业一个很重要的信息来源。本文旨在通过分析社交媒体平台中消费者关于美妆品牌的真实评价,提取合适的关键词进行情感分析、IPA分析及共现分析,使
学位
命名实体识别是指识别出一段文本中具有人名、地名、专有名词等特定含义的实体。中文命名实体识别任务是自然语言领域的基础任务,是许多上游任务的基石,而医学文本是中文命名实体识别的一个非常重要的领域。本文就医学文本命名实体识别中存在的嵌套实体识别难的问题提出了一些有效的解决方案。对于命名实体识别,业界通常采用序列标注的方法来识别实体。对于非嵌套实体这样做是方便且有效的,但是对于嵌套实体而言,会出现一些问题
学位
随着互联网时代的到来,社交网络蓬勃发展,已成为当代社会信息传播的重要渠道和载体。在线社交网络中每天产生海量且流动的信息。然而信息流行度分布极其不均,绝大部分信息的流行度较低,只有极少数信息具有着较高的流行度。因而了解信息是如何传播的,以及什么样的因素驱动信息的传播,并对信息流行度进行预测成为了广大科研人员的关注热点。本文针对社交网络中的信息流行度预测问题展开实证研究,主要内容如下:对社交网络流行度
学位
在如今的大数据时代,信息传递与反馈变得尤其快速,随着科学技术的不断发展,人类社会步入崭新的信息化时代,互联网的迅速发展使得人们的生活方式发生了极大的改变。各种打车的APP层出不穷,出行变得越来越方便。而对于运营打车APP的企业,在市场竞争不断加大的情况下,如何更好的运营,对不同的乘客使用独特合理的策略,从而提高收益和留存率,成为大家关注的话题。乘客干预效应是智能补贴算法的一环,它的涵义是指乘客被发
学位
随着互联网的快速普及,电子阅读逐渐兴起,各大电子阅读运营平台通过各种形式和渠道拉取新用户,以获取更多的市场份额。与此同时,用户切换使用平台,几乎无需付出任何代价,使得各电子读书服务平台正面临或即将面临高用户流失风险。哈佛商业评论研究显示降低5%的用户流失率可以使企业的利润增长25%至85%。随着电子阅读市场的竞争越来越激烈,电子读书服务平台有必要对现存活跃用户进行流失判断并分析原因。本文所构建的用
学位
近年来,互联网特别是移动互联网的迅速发展,使得网上购物变得方便、快捷,且相较于传统线下购物的方式网上购物价格更加透明,更多人趋向于网上购物。2020年淘宝双十一购物狂欢周创造了总交易额5249亿元的“神话”,仅双11当天的全网销售额就为3328亿元,京东11月1日至11月11日购物节的全网销售额在2715亿元,苏宁易购线上订单同比增长72%。互联网电子商务企业大促成绩亮眼,不仅反映了国内消费者的强
学位
本论文主要提出与国内商业银行对公活期存款业务有关的研究问题并进行量化分析。法人活期存款作为商业银行的一项重要业务指标,近年来在利率市场化的背景下呈现显著下降的趋势,然而目前少有从微观业务角度出发、针对商业银行内法人活期存款的影响因素进行量化探究分析的理论成果。因此本论文主要通过量化分析的方法对法人活期存款余额及其增幅的影响因素进行探究,验证结算及贷款业务指标对法人活期存款余额及其增量的显著影响。法
学位