论文部分内容阅读
信息抽取是解决从海量Web页面中提取有价值的信息和知识的重要技术手段,而页面结构特征的挖掘和提取是信息抽取过程的关键步骤。然而,已有的页面结构挖掘方法大多数依赖于启发式规则和人工标注,这对于海量、异构的Web页面来说,不管是效率还是可扩展性都难以满足实际应用的要求。因此,信息抽取应用的发展迫切要求更智能化、自动化的页面结构挖掘技术。基于以上背景,针对Web页面结构挖掘中的两个关键技术——页面聚类和页面分块技术,本文进行了深入分析和研究,指出了现有方法对标签的理解基本上都停留在启发式规则的层次上这一问题。针对该问题提出了基于统计信息的标签向量,作为本文的页面聚类算法和页面分块算法的技术基础。本文取得了以下一些研究成果:1.基于矩阵结构的页面聚类算法:即MSPC(Matrix Structure Based Page Clustering)算法。MSPC算法把所有页面表示成为统一大小的矩阵,它的时间复杂度仅受排序算法的影响。本文不仅从理论上证明了MSPC是个快速的算法,同时在实验中也证明了MSPC算法相较于具有相同复杂度的页面聚类算法具有更好的聚类效果。2.基于统计信息的页面分块算法:即GSPS(Graph and Statistic Based Page Segment)算法。GSPS算法摒弃启发式和标注等一系列有人工参与的半监督或全监督的方法,结合标签的统计信息和图分割算法(GN算法)实现无监督的非启发式的页面分割算法。在实验中证明GSPS能得到很好的分割效果,从整体上与VIPS算法相当,但是GSPS算法解决了VIPS算法中同类页面分割后的结构不稳定性的缺陷。本文也设计了实验用以比较同类页面分割效果的优劣,实验证明GSPS算法在对同类页面进行分割时较VIPS算法效果更好。3.信息抽取系统(包装器原型系统),它能够实现基于站点的信息抽取。除此之外,页面聚类子系统能够应用于信息检索技术,页面分块子系统也能够独立应用于信息检索技术和移动设备的WEB页面分块技术。