论文部分内容阅读
针对中英文混合垃圾邮件过滤问题,提出一种基于支持向量机(SVM)的过滤方法和融合多种分类特征的框架。通过改进SVM中线性核的表示方式,解决存储空间和计算量问题。通过领域术语自动抽取技术,增强垃圾邮件过滤的语义单元识别能力,提高垃圾邮件分类性能。在跨语言大规模语料库上的实验表明,采用SVM比采用Good—Turing算法平滑的朴素贝叶斯模型泛化性能提高了6.13%,分类精度比最大熵模型提高了8.18%。