Web广告图片过滤技术研究与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户：wjz_512

【摘要】

：

自上世纪90年代互联网进入中国至今,我国互联网普及率已达到51.2%,网民规模已达到7.1亿,越来越多的人通过互联网发布或者获取信息。这么庞大的群体中,自然就蕴含了巨大的商机

【作者】

：

李霄夏

【出处】

：

北京邮电大学

【发表日期】

：

2017年01期

【关键词】

：

广告图片过滤 SVM DOM 代理服务器

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

自上世纪90年代互联网进入中国至今,我国互联网普及率已达到51.2%,网民规模已达到7.1亿,越来越多的人通过互联网发布或者获取信息。这么庞大的群体中,自然就蕴含了巨大的商机。Web网页上充斥着越来越多的广告,严重影响着大众对于有效信息的获取。而且进入Web2.0时代以来,图片由于具有更好的视觉效果,可以以更加简洁的形式蕴含更加丰富的内容特征,被越来越多的用于广告信息的传播,严重影响了大众的工作效率;目前针对广告图片的过滤研究已有很多,但多数研究都是通过研究图片的具体内容进行分类识别,虽然准确率较高,但图像识别难度较大,算法复杂。鉴于上述情况,本文对如何高效便捷的进行Web页面的上广告图片过滤进行了研究。所做工作如下:1.对广告图片的特征进行了归纳,分析了目前对于图片特征选择的优势与不足,并结合目前Web广告推崇个性化以用户兴趣为导向的特征,从兴趣、文本、链接、属性四个方面对Web广告图片进行特征提取。结合SVM机器学习算法提出了一个基于DOM属性的广告图片过滤模型。2.深入挖掘HTML文本的DOM属性,结合广告图片的特征以及目前基于用户兴趣的广告推荐情况,研究了基于DOM属性的广告图片过滤技术,避开了对图像内容的识别,提出了基于兴趣、文本、链接、属性四个方面共11个特征进行提取的方法,通过仿真实验,从准确率、精确率、召回率、F1测度四个方面验证了该模型的有效性。3.在对文本特征进行提取时,研究了目前常用的关键字匹配算法,对比了各关键字算法的优劣,考虑到本文所需匹配内容较为明确,选择了正向最大匹配算法进行关键字过滤。4.研究了 HTTP透明代理技术以及内容过滤技术,搭建了一个基于Squid-ICAP架构的基于DOM属性的广告图片过滤系统,详细介绍了系统的设计、关键功能模块的设计与实现。并对系统的过滤效果进行了验证。

其他文献

全面深化数字政府建设——浙江省数字政府建设舆情监测分析

数字政府建设总体舆情(一)国内外舆论对浙江省数字政府建设高度关注,重要时点呈现多个波峰从境内平台数据抓取情况看,报告期内(2017年12月4日至2019年5月4日,下同),境内各平

期刊

浙江省政务服务电子政务“最多跑一次”改革高校智库在线服务数据体系监测分析

中国的设计史问题——关于上海的中国设计史年会

ue＊M＃’＃dkB4＃＃8＃”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:（100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技

期刊

工艺美术史

我国中小银行经营绩效及其影响因素研究

期刊

中小银行经营绩效影响因素对策

四轴双电源制电力调车机车动力系统设计

介绍一种AC 25 kV接触网+动力钛酸锂电池双电源制电力调车机车的技术方案和性能参数。从设备布置、电气系统、辅助系统、控制系统、钛酸锂电池系统及钛酸锂电池保护策略等方

期刊

双电源制电力机车调车机车接触网供电钛酸锂电池机车设计Dual Power SystemElectric LocomotiveShunting Loc

铁路站段计量管理信息系统改进建议

为了改进铁路计量管理信息化建设工作,分析宁波工务段铁路计量管理信息化建设现状及存在的主要问题,提出基于射频识别(RFID)技术的改进建议:利用RFID技术改进现场数据采集录

期刊

铁路计量计量管理信息化改进RFIDRailway MetrologyMetrology ManagementInformatizationImprov

城轨直线电机车辆智能运维综合检测系统研究与实现

介绍一种城轨直线电机车辆智能运维综合检测系统。在既有城轨直线电机车辆运维检修基础上,采用车载传感器技术、物联网+5G技术、轨旁综合智能检测技术、人工智能深度学习技术

期刊

智能运维直线电机车辆综合检测检修模式Intelligent Operation and MaintenanceCity Rail Linear Moto

电信业回报计划对客户保持的影响:以客户状态为调节变量

本文以电信业为背景,研究了回报计划感知价值、转移成本、客户满意对客户保持的影响,并分析了客户状态(月均话费和积分兑换经历)的调节作用。结果表明,回报计划感知价值、转

期刊

回报计划转移成本客户满意客户保持电信业

景区游览类文化企业无形资产评估

<正>《文化企业无形资产评估指导意见》(以下简称《指导意见》)的发布,激发了社会对文化企业无形资产及评估的关注潮。在我国已形成的"1+3无形资产评估准则框架"基础上,《指

期刊

无形资产评估收费权

武夷山九曲溪水资源

本文在分析流域中森林水文作用的基础上，从整个流域分析九曲溪在洪水期的水量骤增与枯水期水量骤减的主要原因，以区域可持续发展理论为指导，提出九曲溪水资源保护的有效措施。

期刊

武夷山九曲溪水资源保护

Web广告图片过滤技术研究与实现

其他学术论文