论文部分内容阅读
针对博客社区和BBS论坛充斥Web垃圾信息的问题,提出相关度向量空间模型cVSM,并以此作为评论的特征,采用支持向量机分类算法自动识别垃圾评论。cVSM包括一种适合短文本的相关测度,用于衡量评论和文章的语义相关程度。在中文博客测试集和中文BBS测试集上的实验结果表明,相比纯粹使用评论文本特征的方法,应用该模型时F1至少提高6%。