基于TF*IDF垃圾邮件过滤改进算法的研究

来源 :电脑知识与技术:学术交流 | 被引量 : 0次 | 上传用户:akiro
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统TF*IDF算法是计算文档关键字的权值的重要方法。分析了传统TF*IDF算法在划分垃圾邮件和合法邮件时的缺点。即忽视了在一类文档中反复出现的单词,反复出现的单词往往最具有代表该类文档的特征,权重应该是比较高的。但这种情况,传统TF*IDF算法计算出结果恰恰相反,权重偏低,达不到设计者的要求。故通过改进了传统TF*IDF算法计算公式,来增加这些单词的权重。实验证明改进算法优于传统算法:
其他文献
分析了电力参数微机监测中的直接采样计算法与谐波分析法的误差,并提出了减小误差的方法.采用硬件锁相倍频技术和加窗的复序列FFT算法,研制了电力参数网络化测量装置,给出了
摘要:决策树是归纳学习和数据挖掘的重要方法,该文对c4.5算法、决策树的构建和剪枝进行了介绍,然后将C4.5算法应用于信息检索结果分类中,实现了检索结果的分层分类处理。  关键词:信息检索;决策树;C4.5算法  中图分类号:TP301文献标识码:A文章编号:1009-3044(2011)09-2126-03  C4.5 Algorithm in the Classification of Sea
摘要:随着网络技术的发展,网络犯罪现象越来越多。网络取证技术是当今一种热门的动态安全技术,它采用主动出击的方法,搜集犯罪证据,查出入侵的来源,有效地防范网络入侵。针对攻击过程复杂化的特点,提出一种基于时序因果关联的取证分析方法,利用系统中收集的取证数据源(Forensics Data Source,FDS),建立多源时间序列数据集,并分为输入时间序列和输出时间序列两类,利用时序分析技术提取输出变量
应用相似与模化原理建立了高炉回旋区三维冷态试验模型,并应用三维激光相位多普勒分析仪(Phase Doppler Analyzer,PDA)对模型内流场进行了测量,同时用所建立的数学模型对流场
论文设计并实现了一种基于gpsOne技术的车载定位系统,该系统较之传统的基于GPS技术的车载定位系统,具有隐蔽性强,不受地域限制等诸多优势。论文对该系统的设计思想进行了深入地分析,对硬件实现机理进行了深入地探讨。该系统经过长时间通电测试,运行稳定,效果良好。
<正>全膝关节置换术(TKA)是治疗膝关节疼痛、畸形以及功能障碍的有效方法,但82%的TKA患者出院后2周内仍存在不同程度的疼痛,严重影响患者的生活质量[1,2]。2014年1月~2015年4
目的 探讨急性心肌梗死小鼠骨髓单个核细胞(BM-MNCs)中c-kit+干细胞的比例及细胞增殖核抗原(ki67)表达水平.方法 应用8周的野生型纯合子C57BL/6小鼠,胸廓切开术后行冠状动脉前降支
目前,计算机已经成为人们日常生活中不可缺少的组成部分,而计算机设备给人们的工作、生活都带来了很大的方便。主机系统是计算机的核心构成,系统的运行状态直接决定了计算机
目的 观察睾酮对大鼠急性心肌梗死(AMI)后病死率及心室重构的影响.方法 85只SD大鼠,均行冠脉结扎术,随机分为4组,其中睾丸切除假手术大鼠给予安慰剂(生理盐水,肌注0.4 mL/kg,每