论文部分内容阅读
互联网规模的急剧扩张与云计算技术的快速发展使得数据呈爆炸式增长。数据中心逐渐成为承载这个不断增长的数据宇宙的主要场所,预计到2020年约有48%的数据将存储在云数据中心内。分布式存储系统以其价格低廉、容量巨大、高可靠性以及高性能等优势成为存储数据的主要技术。随着新型存储介质存取速度的不断提升,存储系统中的网络传输逐渐成为整个系统的瓶颈。一方面,分布式存储系统的读写性能以及系统后台活动的性能都受存储网络带宽的限制;另一方面,随着规模的增长,分布式存储系统面临安全威胁的概率也将极大地增加。因此,研究如何提升分布式存储系统内的网络传输效率和降低存储系统遭受攻击的风险具有重要意义。本文针对数据中心环境下,围绕提升分布式存储系统中网络传输效率与安全性两方面展开了研究。具体而言,利用新型网络技术软件定义网络(Software-Defined Networking,SDN)实现了高效的网络组播传输方案、网络流量调度方案以及匿名通信方案,进而在分布式存储系统中实现更加高效与安全的网络传输。 提出一种拥塞感知的可靠组播方案MCTCP,并且利用MCTCP实现组播多副本机制,从而有效地减少分布式存储系统中多副本写入过程的冗余报文,提升系统性能。MCTCP通过扩展TCP协议来实现一对多模式下的可靠数据传输,并且利用SDN控制器来集中管理每个组播会话的状态。通过实时地监控网络链路状态,并且根据链路状态来实时调整组播会话的转发生成树以绕开拥塞或者失效链路,从而实现拥塞感知和高鲁棒性的路由转发。一方面,相比于传统的可靠组播方案,MCTCP针对数据中心内分布式存储系统网络传输特征设计,具有比传统可靠组播方案更高的传输性能与更好的易用性。另一方面,基于组播的多副本机制比传统的多副本机制具有更少的冗余报文,从而达到更高的传输效率。基于组播的多副本机制中,MCTCP方案比传统可靠组播方案达到更好的性能。实验表明,相比于原始版本分布式存储系统HDFS-O,基于MCTCP的分布式存储系统HDFS-M多副本写操作带宽提高1.5倍。 提出一种动态的网络流量调度方案MAX,可以在存储系统中实现跨前端与后端网络之间的网络流量调度,通过提高空闲网络资源的利用率来提升存储系统的恢复与重均衡性能。MAX针对部署双网络的分布式存储系统设计。在每个存储节点上增加一个网络调度层,并使得存储系统的流量经由调度层转发后进入物理网卡。通过利用SDN集中化控制的能力,在SDN网络控制器上控制进入到调度层流量的路由来实现流量调度。因此,MAX可以在不修改特定的分布式存储系统代码的情况下实现跨前端与后端网络间的动态流量调度。在存储系统前端无请求或者请求较低时,MAX可以充分利用前端网络中的空闲网络带宽来优化系统的性能(如恢复与重均衡)。同时,提出一种基于优先级的路由方案保证后端网络中的流量不会影响前端网络请求的性能。实验表明,MAX可以降低Ceph恢复和重均衡的时间,分别获得约30%~46%和30%~43%的时间节省。 提出一种基于全局路由冲突避免机制的网内匿名通信方案MIC,并且利用MIC实现基于匿名通信的分布式存储系统(简称为匿名存储系统),通过匿名的方式有效提升存储系统的安全性。匿名存储系统中,存储节点成为动态的目标,从而扰乱攻击者的攻击链。MIC的主要思想是通过在交换机上修改报文的源地址和目标地址来隐藏报文的发送端与接收端,从而达到匿名通信的目的。相比于传统的基于覆盖网络(overlay)的匿名方案,MIC基于网内(in-network)的设计具有更短的传输路径和更少的中间操作,因此具有更高的性能。为了保证网络通信的正确性,设计了全局路由冲突避免机制,通过合理地分配每个流的地址来避免不同流之间的路由冲突。为了提升抗流量分析攻击能力,提出多匿名流与局部多播的机制。利用MIC实现了匿名存储系统CapFS-M,从而实现存储系统中各个节点之间相互匿名,提升系统的安全性。实验表明,匿名存储系统CapFS-M相比于非匿名的CapFS-O引入带宽开销小于1%。