论文部分内容阅读
网页包含的信息很丰富,传统的TFIDF公式很难满足内容过滤系统的要求。针对网页过滤技术中的特征选择方法存在的问题,加入语义信息,改进TFIDF公式,提出了一种比较适合网页过滤的特征选择方法。该方法综合考虑特征的长度、在网页中的位置信息,并且将情感色彩这种语义信息附加到特征上。实验结果表明,该方法在网页过滤系统中取得了较好的效果,尤其是实时内容过滤系统中,具有一定的实用价值。