论文部分内容阅读
电子邮件以其传递信息便捷快速的优势己经成为了最为普遍的交流应用之一。虽然电子邮件可以给网络用户提供很大方便,但是同时也会带来某些非常严重的隐患,即有可能会有一些垃圾邮件。垃圾邮件通常数量众多,会在很大程度上挤占网络的带宽资源,从而使得网络通信信道拥堵,让许多网络用户没办法连接到目的网络或者没办法浏览和编辑一些重要的正规邮件。这会大大消耗用户的时间和精力,也会使得网络资源的应用不合理,进而严重损害了互联网的正常秩序和网络安全。所以,怎么去掉网络上面的大量垃圾邮件并且去除垃圾邮件的效率已经变成了网络用户和邮件提供商的亟需解决的问题。当前,去除垃圾邮件的相关技术以及相关研究在互联网的应用领域之中。然而,分析已存在的过滤技术,垃圾邮件过滤方面还存在一些问题,如已存在的的过滤方法精确度不高,经常出现误判的情况和对垃圾邮件过滤精确度高的技术存在耗时过多和用户信息泄露等等的问题。为了进一步加快判断的速度且提高垃圾邮件判断精确度,本文不仅通过研究邮件头的特征,还结合随机森林的特点,将随机森林算法应用在邮件过滤中。这样不仅能够提高判断邮件属性的准确率,同时还提高判定效率。基于行为识别的垃圾邮件过滤系统的研究与实现的工作包括一下内容:1、利用F-score法找出被判定为垃圾邮件的重要行为。根据大量的垃圾邮件分析的得出属性为垃圾邮件所表现出来共同行为特征,将这些行为特征采用F-score方法选择出具体代表性的行为特征。最后,随机森林算法使用被选择的最优行为特征去判定垃圾邮件的可能性。2、构建基于行为识别的随机森林算法垃圾邮件过滤模型。本课题的研究展示了多种垃圾邮件过滤方法,在对这些方法进行充分的分析以及比较之后,最后本文确定把基于行为特征的随机森林方法应用到垃圾邮件的过滤之中。基于当前学术界所应用的一些成熟实验环境和数据信息,对基于行为识别随机森林垃圾邮件过滤模型进行了搭建。本文研究了随机森林的基本结构、算法实现步骤以及训练数据的过程。3、系统的设计与实现。在已有的垃圾邮件过滤模型基础之上,与上文所设计搭建的随机森林模型进行结合,系统实现需求和功能方面的分析与定位,并且实现垃圾邮件系统总体框架的研究与搭建,本文所实现的系统,能够为垃圾邮件的快速和准确过滤展现出一类可行的方法。