论文部分内容阅读
基于增量学习思想,提出了一种博客网页识别算法。针对博客网页所具有的特征,算法提取博客网页的HTML标签、URL字符、网页文本等构成特征值,采用C4.5算法构造决策树模型识别网页,同时记录正确和错误识别的网页。当算法的识别精度低于预设阀值时,在原有网页特征中加入误判网页特征,从而更新决策树模型以提高模型识别精度。实验结果表明,算法对博客网页具有很高的识别精度,在采集的博客网页上的识别精度达到了99%。