高性能中文垃圾邮件过滤器

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:begoodboy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
设计并实现了基于在线过滤模式高性能中文垃圾邮件过滤器,能够较好地识别不断变化的垃圾邮件。以逻辑回归模型为基础,该文提出了字节级n元文法提取邮件特征,并采用TONE(Train Onor NearError)方法训练过滤器。在多个大规模中文垃圾邮件过滤公开评测数据上的实验结果表明,该文过滤器的性能在TREC06C数据上优于当年评测的最好成绩,在SEWM07立即反馈上1—ROCA值达到了0.0000%,并明显优于SEWM08评测在线过滤任务中的所有其他方法。
其他文献
该文研究论坛的增量搜集问题。由于在论坛中同一主题通常分布在多个页面上,而传统增量搜集技术的抓取策略通常是基于单个页面,因此这些技术并不适于对论坛增量搜集。该文通过对
双语术语词典在生物医学跨语言检索系统中有着非常重要的地位,而双语句子对齐是构建双语词典的第一步工作。为了构想面向生物医学领域的双语词典,该文将分类思想和迁移学习方
目的探讨妊娠合并子宫肌瘤对妊娠及分娩的影响和处理.方法对42例妊娠合并子宫肌瘤进行回顾性分析.结果妊娠合并子宫肌瘤者并发症发生率高,剖宫产率高.剖宫产术中行子宫肌瘤剔