论文部分内容阅读
互联网的发展使得搜索引擎成为了用户寻找信息的最主要手段,而准确和迅速是用户对搜索引擎的最主要需求。然而目前搜索引擎的准确度还无法完全满足用户的需求,所以如何能让用户在现有的还不够准确的搜索技术下也能够迅速找到想要的信息成为了一个非常迫切的需求。网页中含有很多可视化的多媒体信息,比如图像、动画、视频等等。俗话说“一幅图抵得上千言万语”,搜索引擎在展现搜索结果的时候加上这些多媒体信息,能够让用户在很短的时间内得到更多的信息量,以便于用户迅速找到想要的信息。这些有可能帮助用户搜索的可视化多媒体信息被称为网页的可视化摘要。由于图像是动画和视频的基本组成部分,所以本文对图像作为可视化摘要的关键问题进行了深入的研究。网页自身含有的图像是可视化摘要的一个可靠来源,我们称之为网页内部图像。对于这类图像,我们提出重要性模型对其表征网页的能力进行衡量:越重要的图像,越适合作为可视化摘要。然而,也有很多网页不存在重要的内部图像,所以我们提出从互联网中获取与目标网页相关的图像,我们称之为网页外部图像。对于这类图像,我们提出算法对其与目标网页的相关性进行衡量:越相关的图像,越适合作为可视化摘要。另外,我们将这两种基于自然图像的可视化摘要与缩略图等合成图像进行了比较,并以分析结果为出发点,提出了最优可视化摘要的选择算法。本文的主要研究结果有如下几点:1.提出了网页内部图像的重要性衡量模型。由于在网页中存在大量的广告图像,装饰图像等,所以我们提出基于图像特征提取和机器学习的算法来衡量图像重要性。该算法从四个层次提取图像特征,并利用基于提升树的LamdaMART算法对图像的重要性建立模型。2.提出了网页外部图像的获取和相关性衡量算法。我们提出了基于关键词提取和图像搜索的外部相关图像的获取方法,并基于图像的文字信息与视觉信息衡量其与目标网页的相关性。外部图像获取系统能够为近一半的无重要内部图像的网页找到相关的外部图像,且相关性衡量算法能够达到很高的精度。3.对网页内部图像,网页外部图像以及缩略图,Visual Snippet进行了深入的比较。我们利用人工标注的数据比较可视化摘要在不同网页中的效果,比如,重要性得分很高的内部图像是有内部图像的网页的可靠可视化摘要,而缩略图适合作为满足“可视区域较小”,或“在截屏区域内有重要图像”,或“截屏区域内有常见网站的logo"等特点的网页的可视化摘要。另外,我们还通过用户研究分析可视化摘要在理解网页和重新寻找网页这两个应用中的实用性。4.提出了从网页内部图像和网页外部图像中选择最优可视化摘要的统一算法。由于网页内部图像和网页外部图像各有其优缺点,所以我们提出了基于聚类的最优可视化摘要选择算法。好的可视化摘要需要满足相关性、重要性和典型性这三个特性,所以该算法利用之前提出的相关性和重要性模型衡量可视化摘要的前两个特性,而利用聚类去体现典型性。我们将相关性和重要性作为聚类的先验知识,采用近邻传播聚类算法将三者有机地结合起来。在聚类完成之后,最好的聚类中心被选为最优可视化摘要。算法在客观和主观评价上都显示了很好的性能。客观评价中,算法的NDCG@1能够达到0.6左右。主观评价中,算法选出的图像被多数用户认同可以用以表征目标网页。