论文部分内容阅读
本论文依托于国家高技术研究发展计划863项目重大专项课题“‘缩小数字鸿沟——西部行动’第一批课题(课题编号:2003AA1Z2530)——基于国产Linux的公共信息平台关键技术与应用研究”的研究内容。 近年来,我国的因特网应用进入大发展阶段,电子邮件给用户带来很大方便的同时,也产生了一个新的问题,即大量的垃圾邮件的出现。如何将电子邮件中属于“垃圾”类别的邮件过滤掉,已成为电子邮件用户关心的一大问题。这就是所谓的“反垃圾邮件(Anti-Spam)”问题。这也是基于国产NC和国产Linux公共信息平台要解决的一个问题。 要治理垃圾邮件,必须立法、组织、技术三管齐下。就技术而言,我们要清醒地认识到制造、传播垃圾邮件技术和反垃圾邮件技术的斗争如同人类和计算机病毒斗争一样,都是一个此消彼长、长期不断的过程。为此,本文就反垃圾邮件技术、文本自动分类系统、贝叶斯分类模型、多分类器组合等相关理论、知识进行了研究。 贝叶斯(Bayes)分类算法是基于概率统计原理的一种分类方法,它具有理论清楚、运算速度快、分类精度高等优点,因而被广泛地应用在各个领域的文本分类并取得较好的效果。本文对朴素贝叶斯分类模型(NBC)、朴素贝叶斯分类模型的提升(Boosted NBC)、半朴素贝叶斯分类模型(SNBC)、树扩展的朴素贝叶斯网络分类模型(TAN)、增量贝叶斯分类模型、贝叶斯网络(BN)等贝叶斯变形算法进行了深入地研究。 在此基础上,本论文提出基于贝叶斯技术的反垃圾邮件多分类器组合模型,并对模型的阈值优化设置提出了改进方法。实验结果表明,该算法模型可以获得较高的查准率和查全率,可以为设计出更好的反垃圾邮件方案提供理论的支持。