论文部分内容阅读
电子邮件是当前互联网上使用最为广泛的服务之一,随着互联网及应用的不断发展,垃圾邮件大量蔓延,造成社会生产力的极大浪费。因此垃圾邮件过滤非常必要,具有重要的理论意义和社会应用价值,成为信息内容安全及信息处理等领域广受关注的研究课题。目前,基于内容的垃圾邮件过滤技术是该领域的研究重点之一,将邮件过滤作为有监督学习,即分类问题来处理,构成文本分类的一个分支。许多机器学习方法已应用到垃圾邮件过滤领域,并取得了较好的邮件过滤效果,但是基于向量空间模型表示的邮件数据具有高维、稀疏及词条相关(同义词)等特点,造成分类器的泛化能力降低或失效,所以有必要对邮件数据进行降维及相关处理。特征提取是一种重要的数据降维方式,如主成分分析(Principal Component Analysis,PCA)和偏最小二乘(Partial LeastSquares,PLS)等。PCA和PLS是针对线性问题提出的,针对现实世界大量存在的非线性问题,“核方法”(Kernel Method)被引入到机器学习领域,同样PCA和PLS的核形式,即KPCA和KPLS被提出,并用于实践,如文本挖掘、基因数据分析等,取得了巨大的成功。偏最小二乘通过求取原始特征和对应的类别特征两者之间的协方差最大化问题,来挖掘出原始特征中的内在联系和隐藏特征,从而得到了一个新的低维的特征空间。核偏最小二乘在偏最小二乘的基础上引入了核函数,其可以很好地用于垃圾邮件维度约减和抵消变量(词条)相关性带来的不利影响。本文在深入分析研究垃圾邮件过滤相关技术的基础上,重点探讨PLS及KPLS特征提取技术问题,并将其引入用于文本垃圾邮件过滤;对比PCA和KPCA特征提取技术,结合不同分类算法(支持向量机SVM和K近邻分类算法)进行垃圾邮件过滤实验,使用中文文本垃圾邮件数据集TREC06C和数据集Enron-Spam,比较不同方法的分类效果;并使用交叉有效性算法来确定PLS和KPLS抽取出的特征维数,提高了模型效率。