基于HDFS的电子文件集中存储和检索系统

被引量 : 0次 | 上传用户:jw_wanghaibing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
我国电子文件随着政府信息化进程的推进得到很大的发展,政府工作中产生的电子文件数量已经超过纸质文件数量。相对于纸质文件的管理方式,电子文件的管理还不成熟,特别在存储方面,电子文件凭借其自身易于传输和保存的特点,可以不在局限于按照地域分散存储。对电子文件进行集中存储可以有效的加强电子文件的管控力度,提高办公效率,减少人力资源开销,并解决文件丢失、泄露等问题。但同时怎样实现海量电子文件的集中存储直接影响到整个系统的实现和效率。云存储是一个网络在线存储模型,数据被存储在存储虚拟池中,只要硬件容许它几乎可以提供无限的廉价存储能力。云存储技术可以高效的解决海量电子文件集中存储问题。基于Google File System(GFS)设计思想的开源云存储文件系统Hadoop Distributed File System(HDFS)凭借其出色的处理超大文件的性能和可靠性成为云存储技术研究的热点。而电子政务中的电子文件以小文件为主,HDFS在处理海量小文件的存储和访问时性能低下。本文针对HDFS处理小文件的不足,提出一种通过使用存储缓存和读取缓存的策略来提高海量小文件的存储和访问效率。其基本思想为设计实现HDFS中间件在满足存储访问需求的同时减少HDFS的访问次数,从而提高存储访问效率。存储缓存策略的基本思想为设置多个缓冲区,存储小文件时通过多个缓冲区的优化选择来提高缓冲区的利用率,从而减少HDFS访问次数。读取缓存策咯的基本思想为使用buddy system的方式管理固定大小的整个读取缓存,并为每个分段缓存设置效率阈值,通过效率阈值来控制缓存的更新策略,最大限度提高缓存利用率,从而使访问文件时尽可能的利用读取缓存,减少访问HDFS的次数。本文在安全性方面也有一些策略设置,通过使用多级加密的形式来保证电子文件的集中存储访问过程中的机密性和隐私性。最后,本文实现原型系统并进行测试分析,以证明以上思想方法的可行性和可用性。
其他文献
作为一项金融创新,以第三方支付、P2P网络信贷、众筹融资等为代表的互联网金融模式对我国企业和公民产生了重要的影响,然而,在互联网金融迅速发展的同时,金融风险正以一种新
鲁甸地震发生后,云南日报报业集团迅速启动应急报道预案,以最快的时间集结、最高的效率奔赴、最紧的节奏追踪、最大的毅力坚守、最好的成果呈现,打响宣传主动仗,传递强劲正能
本文基于VAR模型,通过协整检验、脉冲响应函数、方差分解证实了城乡二元结构系数、城镇化、农村金融发展水平对城乡收入差距的影响。协整检验表明,城乡二元结构系数、城镇化
由于汉语定语中“的”的用法比较复杂,再加上日语中“の”和汉语中“的”的用法部分重合,因此,对日本留学生来说,汉语定语中“的”的学习有一定的难度。本文选取2080篇高等汉语水
草地贪夜蛾也称秋粘虫,属鳞翅目夜蛾科,原产于美洲热带和亚热带地区,广泛分布于美洲大陆,具有适生区域广、迁飞速度快、繁殖能力强、防控难度大的特点。2018年在非洲造成高达
利用大量岩心、录井、测井及地震资料 ,运用沉积学和层序地层学最新方法、理论 ,研究了松辽盆地徐家围子断陷沉积体系类型、特征及沉积体系的时空演化规律 .结果表明 ,徐家围
在以3C(客户、变化和竞争)为特征的新型商业环境下,组织变革和观念重组显得尤为重要。本文从组织变革和观念重组二者的关系出发,分析期间将遇到的阻力,探讨组织变革和观念重
三三零方言是指葛洲坝工区内居民所使用的语言,它处于宜昌方言的包围之中,产生于葛洲坝特殊的历史、政治和经济环境中。由于葛洲坝建设初期大量外来建设者的涌入,葛洲坝在其建设
结构性失业是河北省产业结构调整下化解产能过剩不能摆脱的顽疾,结构性失业再就业、化解过剩产能中职工转岗就业问题已经成为困扰河北省进一步深化产业结构调整的一大难题。