论文部分内容阅读
随着计算机的不断发展和网络的普及,电子邮件作为Internet的重要应用,以其方便、快捷的特性而深受广大网络用户的欢迎。不论是个人、企业、政府甚至包括军方等,都在通过电子邮件来进行日常生活和工作上的联系。然而,非法商家和不法分子利用电子邮件推送广告、病毒、不健康图文以及破坏国家安定团结的非法信息,对个人、企业和国家造成不同程度的安全隐患。现有的比较成熟的技术是邮件过滤,它能屏蔽一些垃圾信息,但不能阻止那些利用网络伪造的破坏国家安全的信息随处传播。如何在浩瀚的信息海洋检索到一些敏感信息,从而追踪到可疑邮件以及可疑用户成为现代信息安全的一个方向。因此迫切需要对海量邮件进行有效的管理和安全监控。针对此问题,本文分析了邮件的文档特性及其格式,提出并设计了一个面向海量邮件的检索系统。该系统能高效地检索到用户感兴趣的邮件正文,收件人发件人等信息,从而有效地解决邮件信息的监控管理。为了提高海量邮件的处理效率,本文重点研究了分布式解析,索引及查询过程。首先介绍了邮件这一特殊文档的相关理论背景,分析了邮件格式和邮件文档的向量空间模型。接着,邮件索引采用传统的倒排索引文档。同时,与普通的检索系统不同,本系统实现了增量式索引,有效节省了索引更新的时间。在系统架构上,为了快速处理海量规模邮件文档数据,本文采用了分布式处理技术。在邮件的前期处理,系统实现了相关的分布式算法,使得多节点并行运行同一任务,从而快速地完成邮件解析与索引;在查询过程中,分布式技术确保了检索的快速稳定。论文最后给出了系统的测试结果,比较了单机系统与分布式系统的解析、索引速度的差距,并得出检索时间主要与邮件规模、查询复杂度相关的结论。系统实现了海量邮件的解析、索引、查询等一系列用户操作,并把这些操作有效地和分布式并行等关键技术结合在一起。系统采用倒排索引技术来存储和组织邮件索引,利用邮件向量空间模型计算查询与文档之间的相似度,使最终返回的结果最大程度上满足用户的查询需求。同时,系统提供了统一的接口和方法,为海量邮件信息处理的应用提供了良好的计算能力和应用开发环境。