论文部分内容阅读
针对目前中文短雷过滤研究缺乏样本库的现状,提出一种客户端样本特征库生成方法。设计客户端短雷过滤样本特征数据库,将客户端接收到的短雷进行预处理和中文分词,考虑高雷息量的低频词和带有较强类别特性的特征词,改进互雷息评价函数提取样本特征,需成特征数据。采用Naive Bayes算法测试特征数目对过滤器性能的影陞,实验结果表明,当特征数目为10时,测试准确率达到最大值,当样本特征库中短雷数目达到2000条时,数据库文件的大雓约为714.28 KB,可在普通手机平台上运行,验证了特征库生成方法的可行性。