论文部分内容阅读
电子邮件过滤系统的主要任务是帮助用户节省手动删除垃圾邮件的时间和精力,帮助服务器过滤掉垃圾邮件以节省网络资源。邮件过滤属于文本分类的二值分类,系统必须具有实时性、高效性、高可靠性,必要时要考虑用户个性化。根据2007年第一次反垃圾邮件调查报告分析显示,半数以上的用户没有使用邮件过滤服务,其中41%的用户认为过滤效果不明显、19%的用户认为过滤系统的功能不能满足其需要,由于中文垃圾邮件过滤的研究在国内起步较晚,在国外做得较少,影响了中文邮件过滤系统的性能和普及。 本课题研究的目的在于提高邮件过滤系统的性能。本文分析了普通文本分类与垃圾邮件过滤在特征提取上的相同点和不同点,在规则提取上考虑了邮件特征词汇的分布特性,通过对统计结果的分析,改进了原有的特征提取算法,在邮件过滤中得到了较好的效果。接着引入理想化模型,提出了边界点圆半径特征提取算法。本文主要研究内容包括: (1)采用特征向量空间的样本建模方法,把邮件样本表示为特征词汇(规则)向量的形式。 (2)分析邮件特征词的分布特点,改进并提出了若干特征提取算法,使提取出的规则可以较好的表现邮件的特性。 (3)研究梯度下降神经网络,设计了BP神经网络,通过实验得到较好的神经网络结构参数,实现特征提取算法地规则提取特征性比较。 (4)研究遗传算法理论,采用基于突变的遗传神经网络方法设计了一个邮件过滤系统,提高了邮件过滤的精度和可靠性,满足了中文垃圾邮件过滤的需求。 本文在实现邮件过滤系统时采用了可以实现全局最优的遗传算法和预选择的小生境搜索等优化方法,在实验中获得了较理想的分类结果。对遗传神经网络与梯度下降的神经网络算法进行的对比分析表明:本系统所采用的遗传神经网络算法在效率和可靠性上都有了一定的提高,适合在邮件过滤系统的应用上面做进一步实现。