基于核偏最小二乘特征提取的垃圾邮件过滤方法的研究

来源 :华东交通大学 | 被引量 : 0次 | 上传用户:lixinghui318
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电子邮件是当前互联网上使用最为广泛的服务之一,随着互联网及应用的不断发展,垃圾邮件大量蔓延,造成社会生产力的极大浪费。因此垃圾邮件过滤非常必要,具有重要的理论意义和社会应用价值,成为信息内容安全及信息处理等领域广受关注的研究课题。目前,基于内容的垃圾邮件过滤技术是该领域的研究重点之一,将邮件过滤作为有监督学习,即分类问题来处理,构成文本分类的一个分支。许多机器学习方法已应用到垃圾邮件过滤领域,并取得了较好的邮件过滤效果,但是基于向量空间模型表示的邮件数据具有高维、稀疏及词条相关(同义词)等特点,造成分类器的泛化能力降低或失效,所以有必要对邮件数据进行降维及相关处理。特征提取是一种重要的数据降维方式,如主成分分析(Principal Component Analysis,PCA)和偏最小二乘(Partial LeastSquares,PLS)等。PCA和PLS是针对线性问题提出的,针对现实世界大量存在的非线性问题,“核方法”(Kernel Method)被引入到机器学习领域,同样PCA和PLS的核形式,即KPCA和KPLS被提出,并用于实践,如文本挖掘、基因数据分析等,取得了巨大的成功。偏最小二乘通过求取原始特征和对应的类别特征两者之间的协方差最大化问题,来挖掘出原始特征中的内在联系和隐藏特征,从而得到了一个新的低维的特征空间。核偏最小二乘在偏最小二乘的基础上引入了核函数,其可以很好地用于垃圾邮件维度约减和抵消变量(词条)相关性带来的不利影响。本文在深入分析研究垃圾邮件过滤相关技术的基础上,重点探讨PLS及KPLS特征提取技术问题,并将其引入用于文本垃圾邮件过滤;对比PCA和KPCA特征提取技术,结合不同分类算法(支持向量机SVM和K近邻分类算法)进行垃圾邮件过滤实验,使用中文文本垃圾邮件数据集TREC06C和数据集Enron-Spam,比较不同方法的分类效果;并使用交叉有效性算法来确定PLS和KPLS抽取出的特征维数,提高了模型效率。
其他文献
随着计算机和互联网技术的快速发展,各种计算机软、硬件系统已广泛渗透到人类生产和生活中,然而如何保证计算机系统严格按照人类设计的方式工作已成为当前计算机相关研究课题之
博客,是一种通常由个人管理、不定期张贴新的文章的网站。随着博客的快速发展,博客作为一个重要的信息源的价值也在增加。在自然语言处理方面和其他方面存在着大量的对博客的
伴随互联网技术的迅猛进步,社会步入了大数据时代。人类日常生活中产生了大量的数据。未来,无论是在哪个领域,越来越多的决策将依赖于数据分析。如何合理高效地分析大量数据,
车牌是交通场景图像中十分重要的目标类,是交通领域智能视频分析的核心对象之一。良好图像质量的车牌检测与识别,已经有了较为成熟的实用算法;但针对各种复杂背景或松视角约
网络性能代表了网络基础设施向上层应用提供的服务质量,其对于运营商、用户以及应用都具有重要意义。网络性能测量可以为网络运营商提供网络性能监控的基础,为流量工程提供评测
近年来,互联网在人们的日常生活中扮演着越来越重要的角色,每天都会有纷繁复杂的新闻事件以各种各样的形式发布到互联网上。相对于以前传统的报刊杂志,在信息爆炸的当今时代,快节
组播是一种由单个或多个源发送数据包到群组主机的有效通信方式,IP组播技术主要通过路由器实现组播功能,在网络资源的使用上有较高的效率。但是,由于IP组播协议和模型的不足
家庭安全一直是人们关心的问题。传统的家居安防监控系统的各个控制子系统相互独立,未能形成一个有机整体,越来越不能满足用户的要求。安装安全的、符合要求的自动化智能安防系
随着电子商务的迅速发展,人们从网上获取的信息越来越多,顾客有了更大的选择空间同时也带来了一些新的课题。海量的数据信息增加了顾客购买所需的难度,在找到自己需要的商品前必
近年来,信息技术不断发展,互联网络技术在人们的生活中发挥着重要的作用。随之产生的海量数据中存在着大量未被挖掘的信息,没有有效工具的帮助,人们在寻找有效信息的过程中耗