论文部分内容阅读
随着网络的飞速发展和人们需求的快速增长,许多网络商店如卓越、当当网等应运而生。网上购物不但提供了各种各样便宜的商品,并且没有营业时间和空间的限制。用户可以购买任何他们需要的商品而不需要走出家门。为了能够更好地满足消费者对于自己需要的商品的了解,不仅需要有相关商品的文本信息的描述,商品的外观如商品的图像信息也是必不可少的。但Deep Web网站由于其商业性,通常只包含1,2张商品的图像信息,不能满足用户的需要。为了更好的满足用户的需求,就需要解决如下两个方面的问题:一是要抽取Deep Web网站中该商品的图像信息,二是要将Surface Web中商品相关图像返回给用户。为了更好的满足消费者对于不同网站中相同产品的对比及选取,本文设计并实现了Deep Web响应页面中图像信息抽取子系统,针对目前Deep Web网站中响应页面图像信息本身的特征,以及DOM树结构下的图像路径信息,对结果记录图像进行抽取。对于某些在结果记录页面中没有记录图像信息并且这些图像信息存在于结果记录详细页面中的网站,本系统通过详细页面的链接进入到该层页面,在利用记录属性信息寻找到记录块所在位置之后,通过类似于宽度优先遍历的思想结合阈值信息抽取结果记录图像信息。为了获取结果记录更多相关的图像信息,我们提出了VTIS(Visual and Text-based Image Search)算法。本系统首先找到Surface Web上与Deep Web结果记录相关的网站,之后利用页面文本信息以及页面视觉信息对页面中图像进行抽取,来满足用户更深层次的需要。该子系统的抽取工作是在前一个层次的抽取结果之上进行的,是为了满足用户更深一层的需求,因而其代价也相对较大。经过实验验证,本文提出的图像抽取方法能够真正有效地抽取Deep Web响应页面中结果记录的图像信息,对于在响应页面没有图像,而在结果记录详细页面之中包含图像的Deep Web(?)网站的图像抽取也有非常高的准确率。并且对于Surface Web中相关页面的图像抽取也有很高的准确性。