论文部分内容阅读
提出了中文网页相关链接提取算法,能够较好地抽取出中文网页中的相关链接,算法的时间复杂性低,准确率和召回率都令人满意.基于向量空间模型,采用KNN对中文网页进行分类,比较了基于网页标题分类、基于网页正文分类,以及将正文与相关链接结合分类、将标题与相关链接结合分类的分类效果,印证了中文网页中相关链接对网页分类具有积极影响的设想,最终分类的准确率达到80%以上.