数据分析技术在移动广告流量反欺诈中的应用

来源 :东北财经大学 | 被引量 : 0次 | 上传用户:kakingka
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年移动互联网发展迅速,随之是爆发增长的移动网民数量。精准性、即时性、互动性、扩散性是移动广告的优点,使其受到越来越多的广告主的青睐,广告主在手机app或者电脑网站上投放移动广告。在利益驱使下,广告流量欺诈以赚取广告主佣金恶性发展并影响着移动广告行业的健康发展,故本文研究的移动广告欺诈流量识别问题具有较高的现实意义。首先,本文基于S公司提供的2019年6月份现网流量数据在移动广告流量反欺诈领域做一次数据分析技术的应用,需要做一些准备工作,诸如:数据了解、数据探索、数据清洗、数据划分。其中数据清洗阶段则针对异常值、缺失值、类别特征离群值等,该阶段占据数据分析工作整个过程的七成以上时间,是最为耗时但又无法跳过的一步。其次,对清洗后的数据进行特征工程是为了发掘出更多有价值的特征,主要进行了构建及拆分特征、交叉特征、统计特征、特征筛选工作,其中特征筛选(递归特征消除法)结合随机森林算法和交叉验证进行,目的是以数据支持并筛选出一个最优的特征子集。之后,对特征工程后的数据进行多种模型尝试,包括传统机器学习决策树方法、在此基础上改进的随机森林模型、在此基础上改进的多种boosting算法(GBDT模型、LightGBM模型、XGBoost模型及CATBoost模型)。这一系列算法在处理较多取值的类别变量大数据时具有泛化能力强、准确率高的优势,而移动互联网广告数据正好具有类别变量取值多、类别变量多、数据量大的特点,故本文将这些新方法在这个新领域作一次系统的尝试,最后会结合逻辑回归模型进行模型融合(stacking)的尝试,以进一步提升模型在识别移动广告欺诈流量中的表现。最后,本文设计4组实验,使用了准确率、精确率、召回率、F1值和AUC值作为评价指标,并主要根据F1值来评价模型的分类性能,对比不同模型、不同实验、不同评价指标的表现情况,对本文所使用的各数据分析步骤进行量化比较,就移动广告欺诈流量识别的分类问题在测试集的表现而言,在实验一、二中,针对未清洗的原数据及清洗后的数据,较好的模型都是LightGBM模型。但针对清洗且特征工程后的数据,较好的模型是Catboost模型。故在测试集上本文认为的最好的两个单模型是LightGBM和Catboost模型。同时实验四的逻辑回归模型+stacking尝试也取得了一定收益,使得整体模型效果得到一定提升,其中F1值达到了 0.9683,同时多次建立各模型并对比各特征的表现情况,创新性地在特征角度进行分析并给出相关建议。综合全文,本文系统性的将数据预处理、特征工程方法应用在移动广告反欺诈领域,取得了不错的分类效果,同时尝试了多种机器学习方法,最终的模型融合获得了很好的分类效果,这也为其他分类任务提供了一种借鉴思路,同时也针对此类问题在特征角度做了专门的分析,并结合各模型给出特征的重要性排序,给出了在特征角度的建议。互联网数据场景无论是量级或是整洁度都千差万别,但只要根据实际互联网数据做具体问题具体分析,就可以将本文所使用的欺诈流量识别模型迁移拓展到其他互联网数据分类场景中。
其他文献
随着社会经济的不断发展,我国人民已经不再满足于物质层面的富足,生活品质的日益提高使得人们开始追求精神层面的满足。因此,为了提高小学生的综合素质,促进其全面发展,很多家长都会让他们参加一些艺术学习。小学阶段青少年舞蹈因为其前所未有的艺术性,在艺术领域中独树一帜,并因此受到了家长们的广泛青睐和追捧。因此,大力开展青少年舞蹈教育与推广,是一项有利于我国小学阶段青少年健康成长的大事,所以,现在越来越多的学
学位
《商周青銅器銘文暨圖像集成》收錄青銅器種類繁多,銘文內容豐富,是一部著錄金文的大型工具書。但整理編纂工作紛繁複雜,書中難免存各種不同性質的問題。本文選取該書著錄的183件青銅盨,對其銘文釋文及器物信息進行逐器校訂。本文主要分了三個方面進行校訂:一是著錄方面,核對其他著錄書,指出其中存在的問題,包括著錄書刊號、頁碼錯誤、缺失著錄信息等。二是圖像方面,核對器物圖形及銘文拓片、摹本,排查了錯收、混置、重
旅游是一个人们都不陌生的词语,它的生命力在我们的生活中展现得淋漓尽致,如今随着社会经济的不断发展,人们的生活水平极大提高,在满足了外在物质上的需求后,逐渐增加对内在精神上的更高追求。当今,全球旅游行业已经进入到飞速发展的黄金时代,中国是世界第二大经济体以及最大的发展中国家,人口数量位于世界首位,国民消费行为十分活跃。自从2012年中国经济发展开始步入“新常态”阶段,消费活动对经济增长的贡献率显著提
玉米种子纯度直接影响了玉米的品相和生长状况,因此玉米种子纯度检测成为育种和生产上迫切的需求。但是传统的玉米种子纯度检测方法大多数是基于人工检测,存在检测精度的问题,为此本文提出一种基于改进YOLO模型的玉米种子纯度检测方法。本文研究内容如下:(1)将小波变换理论引入到种子纯度检测中,提取种子纹理特征,对其特征进行分类。(2)本文将使用基于小波域的共生矩阵模型来提取图像的纹理特征。本文先利用小波分解
现代国际金融交易市场上衍生出大量新型期权,这些期权具有路径依赖性,其中的典型是交易最为活跃的亚式期权。亚式期权有几何平均亚式期权和算术平均亚式期权两种类型,目前几何平均亚式期权可由显式的定价公式计算,而算术平均亚式期权由于算术平均后的资产价格不再服从对数正态分布,无法得到解析解,只能寻求近似定价方法尽可能逼近真实结果。因此研究利用数值方法寻求算术平均亚式期权定价模型的近似解具有很高的学术价值。该文
语言学习需要大量的输入,阅读教学是初中英语教学的重要内容之一。然而,目前的阅读教学却一直差强人意。在传统教学方式的影响下,我国很多英语教师对学生所采用的教学方式依然是老一套,在日常教学中单一地强调对英语词汇、结构、语法以及发音上的问题,却忽略了对学生进行阅读理解能力的培养。这就使得大部分学生觉得课堂枯燥、无趣,当然也就无法培养阅读兴趣和提高阅读能力。这就促使教师需要寻求一种新的教学方法,来提高学生
疾病与死亡是生命中的两个不可避免的现象,从古至今,人们一直没有间断过对疾病和死亡的思考与探索,艺术家也是一样,疾病和死亡所带来的痛苦大到生离死别,小到寝食难安,都在一生中影响着人们。艺术家菲利克斯·刚萨雷斯·托雷斯(Felix Gonzalez-Torres)是一名特别的艺术家,在艺术家之外他还有另外两重身份,一名同性恋者,同时也是一名艾滋病患者。他以其独特的艺术语言向我们展示了疾病、死亡、爱情等
市场经济快速发展,企业合规管理不断升温,企业合规风险不断升级。企业合规评价是企业管理的基础,能够体现一个企业的经营情况,是降低企业违规的必要手段。运用大数据的技术手段构建企业合规判别模型,有利于完善企业合规评价体系,客观的评价企业管理情况,促进企业的长期发展,公平维护企业的合法利益,维持市场稳定发展。本文选用江苏省3000万企业脱敏后的数据,它提供企业主体在14个方面留下的合规信息。将14大数据源
“心意拳”是与太极拳、少林拳和八卦拳齐名的中国四大名拳之一,也是我国传统优秀内家拳种之一。在强调“传承中华文化基因,不断增强中华优秀传统文化的生命力和影响力”的国家政策引导下,近年来,各界对“心意拳”多有研究。综合分析发现,相关研究大多为体育学角度的研究、医学角度的研究、社会学角度的研究,以及“心意拳”服装服饰设计的研究,与本文研究角度不同,但为本论文提供了基础资料。本文用文献研究等方法从追溯以山