论文部分内容阅读
电子邮件因为其方便、快捷、低成本的特点成为了人们生活中和工作中不可或缺的信息传递媒介,也因此导致垃圾邮件泛滥成灾。特别是在高校,这种问题尤其严重。杜绝垃圾邮件的传播,有效地对邮件系统进行垃圾邮件的过滤,是学校,乃至企业网络中心十分关注的核心焦点。现如今已存在许多相关研究,比如常用的贝叶斯、支持向量机过滤算法,也获得了很多成果,但是大部分都是基于邮件内容的过滤算法。在现实中,往往因为隐私问题无法获取邮件的文本内容,并且基于内容的过滤也耗费了大量的处理时间。因此,必须寻求新的方法和算法。本文以某高校的邮件系统为例,提出了一种基于ELK对邮件日志的信息处理架构,能够实时处理大量日志流数据,在现实中,高校邮件系统每天产生可达上亿数量级的邮件日志,该框架对上亿的吞吐量仍然表现良好。然后利用正则表达式进行日志分析,提取日志中实验所需的信息,如发件人、收件人、发送时间、接受时间等元素,并定义了邮件事件的概念将所得元素组合进行建模,存入图数据库。然后引入用户基本行为模式单元(简称模式单元)的概念,改进了用户行为模式挖掘算法,提取用户行为特征,通过分析快照中的特征,发现邮件信息的异常。实验证明,该方案能实现对大规模量数据的实时处理与建模存储,满足邮件系统的需求。本文的主要工作在于提供了一个新的工具组合ELK+Neo4j处理邮件日志,利用ELK实现邮件日志的实时搜索。采用正则表达式的方法提取邮件日志中零零散散的信息,将零碎的信息组合建模,提出邮件事件的概念,将事件存入图数据库Neo4j中。引入模式单元的概念,改进了用户行为模式算法来检测用户异常信息,发现垃圾邮件。