基于视觉信息的上下文广告关键词提取算法研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:colleagelxs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网已经成为目前最为重要的广告媒介之一,它能够以低成本将商品和服务向全世界的各个角落展示,这种独特能力吸引了众多的网络广告投资,也无形中带动了互联网的发展。在几年前,由于众多互联网公司的倒闭,一度严重影响了在线广告的投资,这种情况一直到2002年才有所缓解。而碰巧的是,促使在线广告在次得到发展的原因是出现了一种新的广告形式—搜索引擎广告。据Forrester研究公司预测,到2010年,这种广告形式将代表超过100亿美元的庞大市场。关于这一领域的研究,主要由各大商业搜索引擎公司开展,并形成了多个产品,比如Google的AdSense,Yahoo的Publisher Network等。这些系统都很成功,但其内部机制缺少透明性,对外仍是一个黑盒。本文尝试探索这个领域,并介绍作者在基于内容的在线广告系统方面的研究工作。考虑到广告的放置主要取决于所在的网页内容以及用户对该网页的理解,而用户最终是通过网页的浏览器渲染结果来理解这个网页的,这为利用网页的视觉信息来提取可行的广告关键词提供了一个可行的背景。本文首先介绍了作者在识别网页标题方面的工作。作者提出了一种基于网页标题模式学习和视觉特征的网页标题提取算法。其次介绍了作者在识别网页正文方面的工作。作者提出了一种基于网页视觉特征和内容特征相结合的学习机制。首先使用VIPS算法对网页进行语意分割,形成一棵层状语意块树,并使用网页标题提取算法定位网页的真实标题,配合VIPS结果一同确定网页的正文部分。随后介绍了作者对寻找网页关键字问题的研究。我们的目标是尽量最大化网页和广告之间的语意关联度,为此我们建立了一个基于网页正文、视觉特征、内容特征、统计结果的学习模型,并比较了多个特征类型对最终结果的贡献。
其他文献
近年来,在计算机、TV、Internet、DVD和数字图书馆等应用中涉及到大量的多媒体信息,这些信息一方面需要大量的存储设备,另一方面,如何从众多的多媒体信息中,找到用户需要的多媒体
学位
多媒体数据是指文本、图形、图像、声音、视频等多种形式数据的综合,而多媒体数据库则是管理多媒体数据的主要工具。随着信息技术和数字技术的发展,各种新型的媒体数据开始出现
光盘数据通道仿真测试系统,是光盘数据通道硬件功能的软件模拟;同时,系统提供一个纠错性能评测的模拟平台,为新一代多功能光盘(NVD:Next-generation Versatile Disc)技术标准
随着信息技术的发展,图像压缩技术已经成为电视广播、视频监控和多媒体娱乐等应用中最重要的一部分。H.264作为最新的视频压缩编码标准,也是目前图像通信领域研究的热点。网络
随着社会的发展,大型企业往往在地域上比较分散,而在管理上,既要求各部门具有独立的局部控制和分散管理的能力,同时,又要在整个企业内实现对所有部门、子公司的全局控制和统一管理
随着计算机技术的快速发展,各类应用系统中积累的数据不断增长。为了进一步利用数据,从大规模数据中发现某些有规律或有价值的信息,数据挖掘技术应运而生。关联规则挖掘是数据
学位
随着Internet的发展,电子商务已成为当前一种重要的商务方式。在商务活动中,买卖双方在交易时必然会因商品属性的要求不同而产生冲突和争议,这时一般采用谈判方式来达成共识。传
随着计算机技术、宽带网络技术、大容量存储技术以及多媒体技术的飞速发展,以Internet为载体的网络广播日益兴起,这些极大地推动了网络新媒体的迅猛发展。本文在研究了新媒体、