论文部分内容阅读
为了提取网页中的主题信息,提出了一种基于支持向量机(SVM)的网页主题信息提取算法.该算法首先将整个网页划分成多个不同的信息块;然后根据信息块中的文本、图片、链接及信息块的位置建立其特征向量;通过训练得到SVM的最优分类函数;最后通过最优分类函数的符号判断给定的信息块是否是主题信息.封闭式测试中,指标precision和gain在最高时达到98%和96%;开放式测试中,两指标分别为92%和87%.