Web环境下基于页面结构的关联图像抽取的研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:harryxu200x
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的飞速发展和人们需求的快速增长,许多网络商店如卓越、当当网等应运而生。网上购物不但提供了各种各样便宜的商品,并且没有营业时间和空间的限制。用户可以购买任何他们需要的商品而不需要走出家门。为了能够更好地满足消费者对于自己需要的商品的了解,不仅需要有相关商品的文本信息的描述,商品的外观如商品的图像信息也是必不可少的。但Deep Web网站由于其商业性,通常只包含1,2张商品的图像信息,不能满足用户的需要。为了更好的满足用户的需求,就需要解决如下两个方面的问题:一是要抽取Deep Web网站中该商品的图像信息,二是要将Surface Web中商品相关图像返回给用户。为了更好的满足消费者对于不同网站中相同产品的对比及选取,本文设计并实现了Deep Web响应页面中图像信息抽取子系统,针对目前Deep Web网站中响应页面图像信息本身的特征,以及DOM树结构下的图像路径信息,对结果记录图像进行抽取。对于某些在结果记录页面中没有记录图像信息并且这些图像信息存在于结果记录详细页面中的网站,本系统通过详细页面的链接进入到该层页面,在利用记录属性信息寻找到记录块所在位置之后,通过类似于宽度优先遍历的思想结合阈值信息抽取结果记录图像信息。为了获取结果记录更多相关的图像信息,我们提出了VTIS(Visual and Text-based Image Search)算法。本系统首先找到Surface Web上与Deep Web结果记录相关的网站,之后利用页面文本信息以及页面视觉信息对页面中图像进行抽取,来满足用户更深层次的需要。该子系统的抽取工作是在前一个层次的抽取结果之上进行的,是为了满足用户更深一层的需求,因而其代价也相对较大。经过实验验证,本文提出的图像抽取方法能够真正有效地抽取Deep Web响应页面中结果记录的图像信息,对于在响应页面没有图像,而在结果记录详细页面之中包含图像的Deep Web(?)网站的图像抽取也有非常高的准确率。并且对于Surface Web中相关页面的图像抽取也有很高的准确性。
其他文献
随着对Web服务研究的深入,组合服务怎样自适应运行才能更好的满足用户的SLA,成为组合服务广泛应用所面对的主要问题。作者所在的研究小组从组合服务的执行环境对组合服务的运
随着网络技术的发展,无线传感网络在不同领域得到了广泛的应用,如军事、医疗、环境保护、交通等方面。无线传感网络的规模也由最初的几十个节点扩大到了成百上千个。面对如此
现今互联网深入到社会各个领域,随着020 (Online to Offline)商业模式盛行,在线业务对于企业日趋重要。由于应用运行环境云端化和在线用户数量日益庞大,不良的应用性能和用户
癫痫作为导致短暂大脑功能障碍的一种慢性疾病,在中国已经成为神经科仅次于头痛的第二大常见病。临床主要表现为痉挛、意识丧失等,会对患者的身心、智力等产生非常严重的影响
随着多媒体技术的发展,视频已成为一种重要的信息载体,视频检索成为一种新的需求。而当前大多数视频检索方法仍基于关键字检索,这种检索方式需要人为定义关键字,既浪费人力也
近两年来,随着深度学习的快速发展,传统方法无法解决的问题正在不断被攻克。特别是在图像、语音和文本领域,深度学习的技术结合更高性能的GPU计算,已经逐渐成为一种趋势。在
在信息化高速发展的时代,信息安全的重要性与日俱增,是世界各国都在面临的一项挑战。口令、IC卡等传统的安全认证方式已经无法满足人们的需求,应需而生的生物特征识别技术已
Web服务具有高度的互操作性、跨平台性和松耦合的特点,使得Web服务在互联网上得到广泛应用。然而用户对Web服务应用要求不断提高,单个Web服务已经不能满足用户的需要。随着Web
随着网络系统应用及复杂性的增加,网络蠕虫成为网络系统安全的重要威胁。在网络环境下,多样化的传播途径和复杂的应用环境使网络蠕虫的发生频率增高、潜伏性变强、覆盖面更广
H.264/AVC是当前最新的视频编码标准,由ITU-T视频编码专家组和ISO/IEC运动图像专家组共同制定。该标准因具有很高的压缩性能和网络亲和性而得到广泛应用,然而这些优点都是以