论文部分内容阅读
不良短信的泛滥,严重影响了社会风气,干扰了人们正常的生活秩序,研发不良短信过滤技术具有相当的实用价值。应用中科院计算所研制开发的ICTCLAS分词系统,结合TFIDF词权度量指标提取关键词,实现短信文本到特征向量的转换,然后采用kNN方法实现短信的类别判断,从而实现不良短信的过滤。另外,针对训练集分布不均衡的情况,应用基于密度的改进方法,较为有效地处理了原来分类结果倾向于大类别样本的情况。实验表明,改进后的方法的准确率约79.18%,比原方法提升了约1.23%。该方法能够比较有效地过滤不良短信,具有