论文部分内容阅读
传统的网页分类大都基于内容,这种方式采用字词特征项匹配的方法,没有考虑网页的结构信息.为了充分挖掘网页的结构特征,本文提出了网页按形式分类的机制.以往关于形式分类的研究大都基于普通文本,但是网页文本不同于普通文本,它具有URL和HTML标签等对网页结构有较大影响的特征.本文从URL和网页的HTML标签中提取特征,并借用了普通文本形式分类中使用的部分特征项作为网页形式分类的特征集合,最后使用SVM分类器进行分类训练测试.