论文部分内容阅读
我国电子文件随着政府信息化进程的推进得到很大的发展,政府工作中产生的电子文件数量已经超过纸质文件数量。相对于纸质文件的管理方式,电子文件的管理还不成熟,特别在存储方面,电子文件凭借其自身易于传输和保存的特点,可以不在局限于按照地域分散存储。对电子文件进行集中存储可以有效的加强电子文件的管控力度,提高办公效率,减少人力资源开销,并解决文件丢失、泄露等问题。但同时怎样实现海量电子文件的集中存储直接影响到整个系统的实现和效率。云存储是一个网络在线存储模型,数据被存储在存储虚拟池中,只要硬件容许它几乎可以提供无限的廉价存储能力。云存储技术可以高效的解决海量电子文件集中存储问题。基于Google File System(GFS)设计思想的开源云存储文件系统Hadoop Distributed File System(HDFS)凭借其出色的处理超大文件的性能和可靠性成为云存储技术研究的热点。而电子政务中的电子文件以小文件为主,HDFS在处理海量小文件的存储和访问时性能低下。本文针对HDFS处理小文件的不足,提出一种通过使用存储缓存和读取缓存的策略来提高海量小文件的存储和访问效率。其基本思想为设计实现HDFS中间件在满足存储访问需求的同时减少HDFS的访问次数,从而提高存储访问效率。存储缓存策略的基本思想为设置多个缓冲区,存储小文件时通过多个缓冲区的优化选择来提高缓冲区的利用率,从而减少HDFS访问次数。读取缓存策咯的基本思想为使用buddy system的方式管理固定大小的整个读取缓存,并为每个分段缓存设置效率阈值,通过效率阈值来控制缓存的更新策略,最大限度提高缓存利用率,从而使访问文件时尽可能的利用读取缓存,减少访问HDFS的次数。本文在安全性方面也有一些策略设置,通过使用多级加密的形式来保证电子文件的集中存储访问过程中的机密性和隐私性。最后,本文实现原型系统并进行测试分析,以证明以上思想方法的可行性和可用性。