Web广告图片过滤技术研究与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:wjz_512
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自上世纪90年代互联网进入中国至今,我国互联网普及率已达到51.2%,网民规模已达到7.1亿,越来越多的人通过互联网发布或者获取信息。这么庞大的群体中,自然就蕴含了巨大的商机。Web网页上充斥着越来越多的广告,严重影响着大众对于有效信息的获取。而且进入Web2.0时代以来,图片由于具有更好的视觉效果,可以以更加简洁的形式蕴含更加丰富的内容特征,被越来越多的用于广告信息的传播,严重影响了大众的工作效率;目前针对广告图片的过滤研究已有很多,但多数研究都是通过研究图片的具体内容进行分类识别,虽然准确率较高,但图像识别难度较大,算法复杂。鉴于上述情况,本文对如何高效便捷的进行Web页面的上广告图片过滤进行了研究。所做工作如下:1.对广告图片的特征进行了归纳,分析了目前对于图片特征选择的优势与不足,并结合目前Web广告推崇个性化以用户兴趣为导向的特征,从兴趣、文本、链接、属性四个方面对Web广告图片进行特征提取。结合SVM机器学习算法提出了一个基于DOM属性的广告图片过滤模型。2.深入挖掘HTML文本的DOM属性,结合广告图片的特征以及目前基于用户兴趣的广告推荐情况,研究了基于DOM属性的广告图片过滤技术,避开了对图像内容的识别,提出了基于兴趣、文本、链接、属性四个方面共11个特征进行提取的方法,通过仿真实验,从准确率、精确率、召回率、F1测度四个方面验证了该模型的有效性。3.在对文本特征进行提取时,研究了目前常用的关键字匹配算法,对比了各关键字算法的优劣,考虑到本文所需匹配内容较为明确,选择了正向最大匹配算法进行关键字过滤。4.研究了 HTTP透明代理技术以及内容过滤技术,搭建了一个基于Squid-ICAP架构的基于DOM属性的广告图片过滤系统,详细介绍了系统的设计、关键功能模块的设计与实现。并对系统的过滤效果进行了验证。
其他文献
数字政府建设总体舆情(一)国内外舆论对浙江省数字政府建设高度关注,重要时点呈现多个波峰从境内平台数据抓取情况看,报告期内(2017年12月4日至2019年5月4日,下同),境内各平
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
介绍一种AC 25 kV接触网+动力钛酸锂电池双电源制电力调车机车的技术方案和性能参数。从设备布置、电气系统、辅助系统、控制系统、钛酸锂电池系统及钛酸锂电池保护策略等方
为了改进铁路计量管理信息化建设工作,分析宁波工务段铁路计量管理信息化建设现状及存在的主要问题,提出基于射频识别(RFID)技术的改进建议:利用RFID技术改进现场数据采集录
介绍一种城轨直线电机车辆智能运维综合检测系统。在既有城轨直线电机车辆运维检修基础上,采用车载传感器技术、物联网+5G技术、轨旁综合智能检测技术、人工智能深度学习技术
本文以电信业为背景,研究了回报计划感知价值、转移成本、客户满意对客户保持的影响,并分析了客户状态(月均话费和积分兑换经历)的调节作用。结果表明,回报计划感知价值、转
<正>《文化企业无形资产评估指导意见》(以下简称《指导意见》)的发布,激发了社会对文化企业无形资产及评估的关注潮。在我国已形成的"1+3无形资产评估准则框架"基础上,《指
本文在分析流域中森林水文作用的基础上,从整个流域分析九曲溪在洪水期的水量骤增与枯水期水量骤减的主要原因,以区域可持续发展理论为指导,提出九曲溪水资源保护的有效措施。