论文部分内容阅读
在现代生活中,网络作为一个能够随时随地了解到世界各处信息的一个强有力的工具,早已渗透入人们生活的点点滴滴,人们了解一个新的事物的开始都是从网络上寻找资源,网络逐渐替代以往获取信息的方式.同时,大批商户选择将商品放置在互联网平台借此推广,巨大的需求推动了网络上投放广告代理平台的出现,以及利用广告流量做假谋取利益的不法商户.本文以网络流量数据识别其中虚假流量为例,创建网络虚假流量识别模型,对广告主鉴别虚假流量具有很好的指导作用.本文基于2018年11月15号至2018年11月22号之间7天内产生的对于一个网站的访问记录作为原始数据进行建模.在网络广告虚假流量的模型构建上采用了现阶段比较火热的集成算法.通常情况下,集成算法是基于一些基础算法来进行合并集成的,常被用来作为基分类器的模型有三种:神经网络模型、决策树模型、支持向量机模型,集成后的模型往往也能够提高模型的准确性.在本文中,不同于一般集成模型选用基础算法构建,首次将集成算法作为辅助模型加入基模型的队伍,预检验是否能得到更加精准的分类模型.在基模型的选择上,选择BP神经网络模型、支持向量机模型、Bagging集成模型以及随机森林模型来构建Stacking集成算法.在模型变量的选择上,根据虚假流量的产生原因,构建了四个虚假流量特征因子,提升模型识别网络流量虚假性的精度.为了不断提升模型的识别效果,对4个模型的排列方式不断的进行调整,最终以BP神经网络模型、支持向量机模型以及Bagging集成模型作为基层分类模型,随机森林模型作为次层分类模型构建二层的Stacking网络广告虚假流量识别算法.结果表明,stacking集成算法的正确率和召回率都高达95%,而判断模型稳定性的AUC值也达到了99%,从各个指标的结果显示,相比较于其他四个算法,Stacking算法的结果更理想,比其它模型的识别效率要高,也更稳定,识别效果也更加的可靠。