论文部分内容阅读
近年来,随着互联网的快速发展,网络中蕴含了海量的信息,并且仍在以惊人的速度增长。一般来说,互联网中信息的主要发布形式为静态网页,每个静态网页都含有一定数量的静态超链接,指向其他的静态网页。传统的搜索引擎正是利用这些静态网页中的超链接来收集、索引和显示用户所感兴趣的网页和信息。然而,除此之外,互联网中还有很大一部分信息是以动态数据源的形式存在的。这些信息并不存在于静态网页中,而是存储在网站背后的在线数据库中,并且根据用户的关键词实时地、动态地生成网页来呈现给用户。由于缺乏足够的静态超链接指向这些动态网页,传统的搜索引擎很难发现和索引这些网页,因此这部分信息相对于用户是“隐藏”的。这些“隐藏”信息的集合被称为深度网络(即Deep Web,又名Invisible Web或Hidden Web)。与此相对应,那些静态网页集合被称为Surface Web。现在,Deep Web的信息量远远超过了Surface Web,尤其是Deep Web中的高质量数据,更是高达Surface Web的2000多倍。但是,有效而充分地利用DeepWeb中的高质量数据在目前仍然是一个巨大的挑战,其中最重要的问题就是Deep Web数据源的发现和Deep Web数据源的采集。一当前的关于Deep Web数据源的发现与采集的研究工作各有一些不足,比如,有些需要人工参与,有些依赖于特定的领域,所以它们都很难大规模应用。因此,本文围绕着Deep Web挖掘的研究,重点关注Deep Web数据源的发现和采集这两个问题,以方便用户利用Deep Web中的信息,进一步推动Deep Web的发展。本文通过仔细分析用户在Deep Web中特有的浏览行为,归纳出了用户在Deep Web中特有的浏览路径,并基于此浏览路径提出了全自动的、不依赖特定领域的、高效的Deep Web数据源发现和采集的方法,使得大规模的Deep Web挖掘成为可能。本文的创新之处主要有三点:1.深入分析了网络用户在Deep Web中的浏览行为首先分析了用户在Surface Web和Deep Web中的浏览记录与浏览行为,并将它们转换为更为直观的图形表示(浏览图),然后仔细对比了它们的不同之处;再结合Deep Web中网页的功能与布局特点和链接规则,最后提出了用户在DeepWeb中的模型化的浏览路径:表单页面→列表页面→目标页面。这条浏览路径很好地描述了用户在Deep Web中的浏览行为的独特性。据我们所知,本文是第一次提出类似的概念。2.提出了一种高效的发现Deep Web数据源的方法基于用户在Deep Web中的独特的浏览路径,提出了一种高效的从浏览记录中发现Deep Web数据源的方法。该方法利用Deep Web中的链接特点,首先通过链接聚类把用户浏览过的表单页面、列表页面、目标页面聚类到一块,然后根据用户在浏览过程中的转移关系重建用户的浏览图;接着,该方法从建好的浏览图中检测浏览路径,来发现Deep Web数据源。由于该方法使用链接聚类取代了页面聚类,因此大大提高了Deep Web数据源发现的效率,而且也不依赖于特定的主题。此外,从用户浏览记录中寻找Deep Web数据源,进一步降低了代价,而且提高了发现Deep Web数据源的准确率和发现高质量Deep Web数据源的概率,降低了发现低质量Deep Web数据源的风险。3.提出了一种高效的采集Deep Web数据源的方法基于用户在Deep Web中的独特的浏览路径,提出了一种高效的采集DeepWeb数据源的方法。由于用户的浏览过程就是访问大量目标页面的过程,因此我们尝试模拟用户的浏览行为,沿着用户在Deep Web中的浏览路径来获取大量的目标页面。该方法从表单页面出发,首先收集一定数目的列表页面;然后,该方法利用DOM树对齐技术和目标链接的布局特点在列表页面上检测目标链接;之后,在列表页面和目标页面上,该方法利用翻页链接的特点来检测翻页链接。当收集到足够的链接后,该方法会学习这些链接的链接规则,并使用学到的这些链接规则去采集目标Deep Web数据源,以提高采集效率。