论文部分内容阅读
随着Internet的广泛应用,WWW已经成为了一个巨大的、分布广泛的全球信息服务中心,提供了新闻、财经、广告、商务、文化、教育等各种信息服务。如何利用Web快速、准确地获得信息及隐藏在信息中的知识是人们的迫切需要。但互联网上存在的信息是海量的,无组织的,这使得在Web上提取知识存在着很大的困难。互联网上高度相关的页面聚集在一起形成的一个个具有共同主题的页面集合是Web社区。根据Web社区从互联网中提取知识是一种快速、有效的知识提取途径。社区发现是指在分散和无序的互联网环境中发现潜在的和已定义的主题社区,并从互联网中抽取这些社区的过程。本文主要围绕社区发现的三个部分:页面预处理、主题社区发现和基于社区的信息检索模型进行了深入的研究。在社区发现中,Web页面非线性结构和存在噪音的特点使得我们容易对页面的主题产生歧义,降低社区发现的准确性。针对该问题,本文在页面预处理部分提出了基于页面结构与内容特征相结合的页面内容提取算法。该算法改进了VIPS算法,根据页面块间的耦合度与页面块内内聚度的关系定义页面块分割的目标函数。并且采用两层过滤机制过滤噪音块对分割得到的各块进行了后处理,保留主题区域与主题相关区域。并对主题区域与主题相关区域的块进行内容的合并。由于Web页面是一个多特征集表示的对象,使用单特征集进行社区发现通常会导致在不同类型特征上得到不同的社区分布。因此本文在主题社区发现中针对基于多特征的Web社区发现问题进行了研究,提出了:1)基于互信息的“软”聚类集成算法;2)基于差异度的互信息“软”聚类集成算法;3)基于多视图聚类的Web社区发现算法。“软划分”的聚类集成是多特征Web社区发现的重要组成部分。针对“软划分”的聚类集成,本文提出了一种基于互信息的“软”聚类集成算法。该算法是将Strehl&Ghosh提出的基于互信息的聚类集成目标函数扩展到“软”划分集成中,并且提出了求解该目标函数的新聚类集成算法。该算法不需要建立不同聚类间的对应关系。由于聚类集成的质量不仅依赖于集成算法,同时也依赖于参加集成的聚类成员本身的分布。通常聚类成员间较大的差异度能有效地提高集成的质量。本文主要通过差异度衡量聚类成员对集成的重要性,对聚类成员赋予不同的权值,提出了一种基于差异度的加权互信息集成算法。在聚类成员的差异度值分布不均匀或聚类成员的差异度均值不大时,基于差异度的加权互信息集成算法能有效地提高对“软”划分集成的准确性。对于Web社区发现而言,在进行聚类集成前需要采用基本聚类算法在各个特征集上获得多个聚类结果。信息瓶颈算法是一种有效的文档聚类算法,但它是单视图(即:单个特征集)算法,没有考虑视图间的关系。本文将多视图学习的思想引入信息瓶颈聚类算法中,并且将其与Web页面的多视图表示,用于“软”划分集成的互信息聚类集成算法结合在一起,提出了一种基于多视图聚类的Web社区发现算法。该算法充分地利用了多视图学习中的两个重要条件:条件独立性与兼容性,将最大化不同视图间的同意程度作为对多视图表示对象聚类的兼容性约束。通过增加兼容性约束,在每个视图上获得能透露更多正确假设信息的聚类结果,并且最终运用基于互信息的软聚类集成算法对所有单视图上聚类结果进行集成,提高了Web社区发现的准确性。该算法是基于多特征的Web社区发现的核心。为了克服“一词多义”和“一义多词”带来的信息检索查全率和查准率的降低,本文提出了一个基于社区的信息检索模型。该模型是在用户与通用搜索引擎间定义了一个中间层。用户通过中间层访问一个已发现的主题社区模型,明确所需的主题并且进一步精化检索需求。同时该中间层根据精化的检索需求,产生一个“中间查询”指导用户通过通用搜索引擎在互联网上搜索。