面向海量邮件的检索系统研究与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:csl721
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机的不断发展和网络的普及,电子邮件作为Internet的重要应用,以其方便、快捷的特性而深受广大网络用户的欢迎。不论是个人、企业、政府甚至包括军方等,都在通过电子邮件来进行日常生活和工作上的联系。然而,非法商家和不法分子利用电子邮件推送广告、病毒、不健康图文以及破坏国家安定团结的非法信息,对个人、企业和国家造成不同程度的安全隐患。现有的比较成熟的技术是邮件过滤,它能屏蔽一些垃圾信息,但不能阻止那些利用网络伪造的破坏国家安全的信息随处传播。如何在浩瀚的信息海洋检索到一些敏感信息,从而追踪到可疑邮件以及可疑用户成为现代信息安全的一个方向。因此迫切需要对海量邮件进行有效的管理和安全监控。针对此问题,本文分析了邮件的文档特性及其格式,提出并设计了一个面向海量邮件的检索系统。该系统能高效地检索到用户感兴趣的邮件正文,收件人发件人等信息,从而有效地解决邮件信息的监控管理。为了提高海量邮件的处理效率,本文重点研究了分布式解析,索引及查询过程。首先介绍了邮件这一特殊文档的相关理论背景,分析了邮件格式和邮件文档的向量空间模型。接着,邮件索引采用传统的倒排索引文档。同时,与普通的检索系统不同,本系统实现了增量式索引,有效节省了索引更新的时间。在系统架构上,为了快速处理海量规模邮件文档数据,本文采用了分布式处理技术。在邮件的前期处理,系统实现了相关的分布式算法,使得多节点并行运行同一任务,从而快速地完成邮件解析与索引;在查询过程中,分布式技术确保了检索的快速稳定。论文最后给出了系统的测试结果,比较了单机系统与分布式系统的解析、索引速度的差距,并得出检索时间主要与邮件规模、查询复杂度相关的结论。系统实现了海量邮件的解析、索引、查询等一系列用户操作,并把这些操作有效地和分布式并行等关键技术结合在一起。系统采用倒排索引技术来存储和组织邮件索引,利用邮件向量空间模型计算查询与文档之间的相似度,使最终返回的结果最大程度上满足用户的查询需求。同时,系统提供了统一的接口和方法,为海量邮件信息处理的应用提供了良好的计算能力和应用开发环境。
其他文献
随着计算机技术和网络的发展和普及,信息化已经深入到社会的各个领域,电子政务也蓬勃发展起来,各级政府都已经建立起自己的电子政务系统。但是我国以往政府的电子政务建设不
随着潜艇减声降噪技术的进步和“隐身”水平的提高,如何有效地提高探测技术水平是现代战争环境中的反潜战面临的紧迫问题。非声探测技术作为一种新的反潜探测技术,有效地克服了
钢铁冶炼过程中,高炉炉顶的炉料分布是影响炉内煤气流分布﹑矿石还原﹑炉料—气体热交换﹑燃料比和高炉寿命的重要因素。为优化高炉操作,实现准确控制炉料分布,需要分析高炉布料过
随着移动通信业务种类的增多,移动用户所使用的业务范围从以语音业务为主过渡到语音、数据、流媒体相结合的综合性业务。目前的频谱分配体制为静态的固定频谱分配,即将频谱分
当前,我国正处在传统农业向现代农业的转型时期,各种新技术广泛使用,农业信息化建设方面取得了长足的进步,但是也依然存在着一些问题。由于我国农民普遍还不富裕,农村的基础
本文主要研究了基于ARM和Linux的嵌入式Web Server的构建及应用。随着互联网的飞速发展,越来越多的信息化产品需要接入互联网并通过Web页面进行远程访问和控制,嵌入式Web Ser
群体组织是指为了达到共同的目标,由个人组成的、能够直接或间接通信、相互依赖、相互影响的群体结构。随着组织规模的不断扩大,组织结构的日益复杂,以及组织环境的变化日趋
在模糊BCK-代数,模糊BCH-代数研究的基础上本文在BCK(BCH)-代数中研究了范围更广的(λ,λ)-广义模糊子代数,(∈,∈vq(λ,μ))-模模糊子代数,以及几种(λ1,λ2)-广义模糊理想和(∈,∈v
现代农业对市场信息服务有着巨大的需求,由于缺乏相关信息的指导,我国农业经营者从种植到销售的整个环节存在着很大的盲目性和随意性,农业生产的风险大大增加。因此,如何从大
随着微电子产业与计算机技术的不断进步,无线传感器网络得到了快速发展。Multi-Radio Multi-Channel无线传感器网络对降低网络传输延迟、提高数据传输鲁棒性具有重要作用,已