【摘 要】
:
垃圾邮件的传播蔓延,严重侵害了电子邮件用户利益,影响了电子邮件服务运营秩序,危害了互联网安全和社会稳定,已经成为互联网一大公害。本文研究了使用文本分类进行邮件过滤的
论文部分内容阅读
垃圾邮件的传播蔓延,严重侵害了电子邮件用户利益,影响了电子邮件服务运营秩序,危害了互联网安全和社会稳定,已经成为互联网一大公害。本文研究了使用文本分类进行邮件过滤的方法。基于机器学习理论的垃圾邮件过滤算法是解决垃圾邮件问题的研究热点,本文重点对中文过滤特征项和垃圾邮件过滤模型两方面进行研究。本文采用在线逻辑回归模型解决垃圾邮件过滤,提出了字节级n元文法获取邮件特征,有效解决了垃圾邮件特征获取的问题,应用该文法不仅简化了特征提取,还使得过滤器具有能够处理图像、病毒邮件的能力,为大幅提高垃圾邮件过滤器的性能奠定了基础;本文采用TONE训练方法进行垃圾邮件过滤器的训练,减轻了系统对训练数据的需求,提高了系统的效率,同时还提高了系统的鲁棒性。实验结果表明,该方法的性能极佳,可以满足实际应用的需求。本文描述的系统参加了中国计算机学会主办的SEWM (Search Engine and Web Mining) 2008垃圾邮件过滤评测,获立即反馈、主动学习、延迟反馈全部在线评测项目的第一,性能优于第二名100倍左右;在另外两个中文测试集(SEWM 2007和TREC05C)上也显著优于当年评测的最好结果。
其他文献
当前,安全性是决定Ad Hoc网络的潜能能否得到充分施展的一个关键所在,特别是对于Ad Hoc网络在军事上和商业上的应用。相比于传统的有线网络,无线移动Ad Hoc网络更容易受到各
网络化制造是制造企业为应对知识经济和制造全球化的挑战而实施的以快速响应市场需求、提高企业竞争力和加速区域经济发展为主要目的一种先进制造模式。我国作为制造业大国,传统作业方式依然占据主流地位。企业间协作意识不强,企业资源的集成度松懈,数据共享不通畅。随着制造业的发展和竞争的加剧,这一问题显得越来越突出。因此,利用信息技术,建立网络化协同工作平台,对制造资源进行优化配置,实现产品协同设计和资源共享,就
模式识别的主要任务就是利用样本中的特征,将样本划分为相应的模式类别。通常情况下,样本特征中包含了足够的类别信息,才能通过分类器实现正确分类。为了提高模式识别的正确
CAD/CAE相关集成技术的发展,促进了集成化设计与生产浪潮,使得产品开发与评价过程发生了变化。在集成化造型和分析技术中,特征造型及数据共享是两个最为关键的技术。现有多分
伴随着科技的飞速发展,我国对铁路建设的现代化程度越来越重视,尤其是在保证单线铁路行车安全方面最为突出。列车驶入或驶出轨道区段时会对轴数进行记录,计轴设备的工作原理
提高地震资料的信噪比是地震信号数字处理的重要任务,因此地震资料去噪方法的研究一直是地震勘探领域的研究热点。随着数字信号处理技术的发展,很多优秀的去噪方法涌现出来,
下一代互联网的精髓在于网络融合,即建设一个能够提供话音、数据、多媒体等多种业务的,集通信、信息、电子商务、娱乐于一体,满足自由通信的融合网络。这种趋势使得现有的Intern
随着自动化金融机具的普及和经济的发展,智能点验钞机大量的应用在银行等金融机构。智能点验钞机的清分方法也在不断发展,最开始使用的是声音识别法、磁性识别法等,现在越来
数字计算机问世半个世纪以来,信息技术经历了次重大革命。世界上首台通用数字计算机的运行宣告了科学计算自动化时代的降临,当今嵌入式计算机无处不在的应用势头,展示了人类
随着Internet的迅速发展,网络信息增长的速度和人们获取所需信息能力之间的矛盾越来越突出。本文围绕主题搜索引擎这一社会研究的新热点技术,对主题搜索引擎中占有重要地位的