论文部分内容阅读
随着信息的迅猛增长,垃圾邮件问题日益严重。如何有效地过滤垃圾邮件成为研究的热点问题。介绍了目前比较常见的几种垃圾邮件过滤技术,分析了垃圾邮件制造者采用的各种新型手段,如简繁体混编、汉字拆分、词间加入特殊字符等,试图绕过基于内容的关键词检查。针对其中几种典型的新型垃圾邮件编写手段,提出改进的中文分词策略,结合基于内容的关键词检查,提出基于特征词扩展的内容检查过滤机制。实验验证改进后的过滤模型可在一定程度上提高对新型垃圾邮件的识别率。最后,对基于特征词扩展思想在网络内容安全和健康过滤上的应用做了展望。