文本挖掘在垃圾邮件过滤中的应用研究

来源 :中国人民大学 | 被引量 : 9次 | 上传用户:sjlovedq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现实世界中,知识不仅以传统数据库的结构化数据的形式出现,更多的也以报刊、新闻、书籍、研究论文、web页面及电子邮件等多种纷繁复杂的形式出现。据统计,在目前人类所接触的信息世界中,属于非结构化或半结构化1的文本数据占整个信息量的80%左右,且以指数级的速度迅速增长。然而对这些非(半)结构化的数据,原有数据挖掘技术无法进行有效的数据挖掘。在此背景下,文本挖掘技术应运而生。文本挖掘技术是以半结构或非结构的自然语言文本为对象的数据挖掘技术,它是从大规模文本数据集中发现隐藏的、潜在的、新颖的和重要的规律的过程。文本挖掘技术应用广泛,文本分类是其重要应用之一。现代互联网飞速发展的时期,垃圾邮件问题日益严重,成为广大网民感到头疼的一件事情。将文本分类技术应用于垃圾邮件过滤过程中,对于防止垃圾邮件骚扰,减少垃圾信息等具有重大的现实意义。本文从介绍文本挖掘流程开始,主要介绍了文本挖掘的重要应用——文本分类在垃圾邮件过滤中的应用。详细阐述了贝叶斯、K最近邻、logitboost、支持向量机等分类算法的原理和方法。并针对KNN分类算法忽略特征之间关系的缺陷,提出基于向量聚合的改进KNN分类算法,然后基于同一数据平台,运用文本分类的一些评价指标,略加改进,评价各种过滤算法的优劣。通过比较发现,运用SVM分类算法的效果最好,略加改进的朴素贝叶斯算法在准确度、召回度等方面均优于经典KNN算法,且受阈值影响不大,效果较为稳定。KNN分类算法随着K值的增大,准确度不断降低,且下降幅度较大。基于向量聚合的改进KNN算法对上述缺陷进行了修正,且通过试验证明确实在分类效果上有很大提高。为了不断优化,选择最好的参数,文中选择使用网格搜索法优化参数,在过滤准确度方面体现其优势。
其他文献
人脸检测是人脸识别的前提和基础,具有重要的理论研究意义和实际实用价值,得到了广大研究者的关注.随着智能计算技术发展的日新月异,新方法,新技术的不断引入,给人脸检测研究
随机变分不等式理论是随机泛函分析的重要组成部分,被广泛地应用到数学、经济、机械和控制论等方面,是目前概率论与数理统计等学科中备受关注的热点之一。这一理论的研究不仅对
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
随着无线通信、低功耗和高度集成的数字电子产品与微电机系统技术的发展,由传感器、无线通信和网络三大技术融合而成的无线传感器网络(Wireless Sensor Network, WSN)引起了
二阶锥互补问题(SOCCP)是在实际应用中广泛出现的一类问题,熟知的线性互补问题(LCP)则是它的一种特殊情形.本文的目的是给出了一种基于矩阵分裂思想的求解对称的SOCCP的迭代方
本文研究了带Poisson跳的倒向随机微分方程在,(f,x,q,p)满足如下的非Lipschitz条件时适应解的存在唯一性.首先在终值为有界停时τ≤T时,讨论了方程在空间内解的性质,为了证明解的存
无线传感器网络在军用与民用上均具有广泛的用途。无线传感器网络中的节点一般采用电池供电,可以使用的电量非常有限,而更换电池是困难的甚至是不可能的;但是无线传感器网络的
《市场营销》是广告学专业的理论基础课程.新媒体时代下,新媒体转变了企业市场营销的观念,并且不断创新发展市场营销的手段.可市场营销课堂却存在着:市场营销理实践教学不足,
An amperometric hydrogen peroxide biosensor using a nanobiocomposite based on neutral red modified carbon nanotubes and co-immobilized glucose oxidase and horse
“互补问题”作为一类新的数学模型,是1964年美国R.W.Cottle在其博士学位论文“Nonlinear Programs with Positively Bounded Jacobians”中提出的。互补问题是从线性规划与非线