论文部分内容阅读
论文从网页自身的结构化信息出发,分析和改进Web分类的相关环节:网页表达、特征选择和分类算法;从网页之间的链接信息出发,讨论了结合分类技术的排序算法,并在此基础上,综合考虑结构化信息和链接信息,将基于链接分析的级联组合分类器作为研究重点.主要工作包括以下方面:
(1)提出了标签词频加权标引法,综合考虑不同标签中的特征词反映网页主题的差别以及特征词在整个特征空间中的比例,对网页表达进行改进.
(2)研究一种基于一定类别空间阈值的MI+CHI联合特征选择法,该算法弥补了CHI选择法的缺陷:过滤指定类别中出现频率低,其它类别中出现频率高的词;提高特定类中出现的低频词的权重.
(3)提出了基于N-Gram模型对NaiveBayes的改进算法,一定程度上改进NaiveBayes的特征相关性问题.
(4)研究一种使用分类技术改进的排序算法.借助预分类技术增强PageRank与Hits算法在计算网页中的链接所指向页面的重要性的能力,使得重要程度高的网页对于同一类别或相关类别的其它网页具有更好的类别调整能力,进而提高网页分类的精确度.
(5)提出了两种可行的组合分类器策略(SVM+NB、NB+NB),分类器由两层分类器级联组成,传统纯文本分类器作为一级分类器,基于超链接分析的分类器作为二级分类器,前一级分类器的分类信息用于指导下一级分类器的训练和分类过程.
(6)研究一种基于类别归并的组合分类方法,对训练集的一些小类别和交叉类别进行归并,重组类别集,采用二级分类器对原始训练集和新训练集进行分类,解决由训练信息过少,类别信息交叉带来的训练不均衡问题.