广告检测中的流量作弊识别算法的研究与实现

来源 :广西科技大学 | 被引量 : 0次 | 上传用户:stevenyhiker
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在现代生活中,网络作为一个能够随时随地了解到世界各处信息的一个强有力的工具,早已渗透入人们生活的点点滴滴,人们了解一个新的事物的开始都是从网络上寻找资源,网络逐渐替代以往获取信息的方式.同时,大批商户选择将商品放置在互联网平台借此推广,巨大的需求推动了网络上投放广告代理平台的出现,以及利用广告流量做假谋取利益的不法商户.本文以网络流量数据识别其中虚假流量为例,创建网络虚假流量识别模型,对广告主鉴别虚假流量具有很好的指导作用.本文基于2018年11月15号至2018年11月22号之间7天内产生的对于一个网站的访问记录作为原始数据进行建模.在网络广告虚假流量的模型构建上采用了现阶段比较火热的集成算法.通常情况下,集成算法是基于一些基础算法来进行合并集成的,常被用来作为基分类器的模型有三种:神经网络模型、决策树模型、支持向量机模型,集成后的模型往往也能够提高模型的准确性.在本文中,不同于一般集成模型选用基础算法构建,首次将集成算法作为辅助模型加入基模型的队伍,预检验是否能得到更加精准的分类模型.在基模型的选择上,选择BP神经网络模型、支持向量机模型、Bagging集成模型以及随机森林模型来构建Stacking集成算法.在模型变量的选择上,根据虚假流量的产生原因,构建了四个虚假流量特征因子,提升模型识别网络流量虚假性的精度.为了不断提升模型的识别效果,对4个模型的排列方式不断的进行调整,最终以BP神经网络模型、支持向量机模型以及Bagging集成模型作为基层分类模型,随机森林模型作为次层分类模型构建二层的Stacking网络广告虚假流量识别算法.结果表明,stacking集成算法的正确率和召回率都高达95%,而判断模型稳定性的AUC值也达到了99%,从各个指标的结果显示,相比较于其他四个算法,Stacking算法的结果更理想,比其它模型的识别效率要高,也更稳定,识别效果也更加的可靠。
其他文献
近一段时间,中国楼市似乎又显得有些不平静。各种传闻风生水起,先是传第二套房贷有所松动,而后又传上海楼市又有暴涨的迹象,楼市似乎又开始“狼烟四起”。    从2007年10月开始,深圳万科发动了打折降价风,引发广州、东莞等珠江三角洲城市高调降价,让全国业内人士吃惊与紧张。随后,2008年1月,万科又在成都、武汉、天津、上海、北京降价,楼价比最高点下调了5%~30%不等。  相较于以往疯涨且坚挺的房价
相关统计表明,我国建(构)筑物下压煤炭多达94.68亿t,充填采煤不仅是提高煤炭资源回收率和安全生产的一项重要举措,也是解决矸石污染及处理城市固体垃圾的一个新方法。目前我
2007年7月,美国次贷危机爆发,引起全球股票市场剧烈震荡下跌,美国股市跌幅18%,香港恒生指数跌幅36%,我国A股市场也被“腰斩”。  美国反复强调地“强势美元”符合美国长期利益,而当下的“弱势美元”格局是因为美国经济真的衰退吗?后市又会引发出什么样的格局?    借“危机”导演“弱势美元”    次贷危机至今,黄金、日元、欧元、人民币分别比美元升值约43%、21%、16%和8%,2008年以来
耐久跑对改善学生的内脏器官机能、增强学生体质具有积极的作用,同时可以培养学生吃苦耐劳、坚忍不拔的意志品质。但由于耐久跑是一项长时间的单循环运动,在教学过程中会使学