论文部分内容阅读
近年来,基于视觉特征的网页分割技术越来越受到人们的关注,它模拟了人们在视觉感知角度上对于一个网页结构的理解,此技术对于信息检索、信息提取、网页自动分类等网络应用技术将起到极大的推动作用。网页自动分类问题是网页分割技术的重要应用之一。作为一个具有代表性的网页分类问题,中文网页分类一直是众多学者研究对象。本文的研究主要着眼于以下几个方面:首先,将传统的基于文档对象模型(Document Object Model,DOM)树的网页表示方法与基于视觉特征(vision based)的网页表示法进行了全面的比较。基于视觉特征的网页表示法在进行网页结构分析时采用的是一种自上而下、不依赖于标签树(tag-tree)的方式,即与编写网页的HTML文档的表达方式无关。它充分利用了网页中可视化的信息从而得到基于视觉特征的网页结构,较好地解决了网页的DOM树结构与语义结构的兼容问题。利用可视化的分割符将网页划分成分块并抽象成层次结构,这种层次化的语义结构在一定程度上与人们的直观感知是相吻合的。其次,在基于视觉特征的网页分割算法的基础上,提出了一种根据分块重要度进行中文网页分类的方法。利用基于视觉特征的网页分割法将中文网页分割后,由于网页中“噪声”信息的存在,所得到的分块并不都是具有同等权值(重要度)的,只有权值较高的分块才能在语义上反映出网页的主题,利用这些高权值分块进行中文网页分类可以获得更好的分类质量。在分类系统中,查全率(Recall)和查准率(Precision)反映了分类质量的两个不同方面,两者必须综合考虑,表示为F1测试值,本文实验用F1值来衡量最终的分类质量。在本文实验中,将传统的全文网页分类方法和基于视觉特征的利用分块重要度的网页分类法进行了比较。实验结果表明利用分块重要度的分类法由于综合考虑了网页层次结构和语义机构,其分类质量为最佳。实验中的分类器选择的是支持向量机(Support Vector Machine,SVM)分类器和K—近邻法(K-Nearest Neighbour,KNN)分类器。基于视觉特征网页分类法具有较好的分类质量,它对信息检索、网页分类等应用起到了极大的推动作用,例如分块检索思想在图像检索领域的引入等,这在本文中都有相应的介绍。