论文部分内容阅读
垃圾邮件是Internet上亟待解决的问题,目前许多垃圾邮件过滤技术已经被使用。基于偏最小二乘的方法可以解决垃圾邮件的内容中普遍存在的数据稀疏性、高特征维数和多重相关性问题。但邮件内容之间的内在联系往往不是线性的,该文通过在偏最小二乘方法上引入核函数,去解决这一类的非线性问题。Enron—Spam垃圾数据集实验表明,同PLSR等方法比较,模型表现出了较好的过滤性能。