论文部分内容阅读
随着网络技术的不断发展,大型网络安全问题日益突出,恶意的网络行为破坏了正常的网络秩序,危害网民的利益,甚至威胁到国家安全。面对新型的网络安全问题,传统的网络安全技术显得迟缓而低效,大数据安全分析越来越多的应用在网络管理和网络安全态势感知中。其中结合大数据存储的静态流量分析技术应用十分广泛,该技术先把巨大的网络流量存储起来,之后再对流量进行离线分析,本论文设计并实现的IP流量活动数据库就是一个存储流经CERNET主干网边界的流记录的海量数据库系统。 为了设计并实现IP流量活动数据库,首先需要选择合适的底层数据库系统。论文研究了主流的NoSQL数据库,针对数据源海量性和持续性的特点,设计了数据库性能测试方案,最终选择HBase作为IP流量数据库的底层数据库系统。 选择底层数据库系统之后需要进行功能设计,论文将IP流量活动数据库的设计与实现分为数据写入模块、数据查询模块、数据生命周期管理模块和运维功能模块四部分。 数据写入模块是建立活动库的基础模块,为了满足活动库将接收到的流记录实时写入数据库的需求,论文研究了HBase的数据写入机制,利用缓存技术和并行技术优化了HBase的数据写入性能,最终实现了满足活动库应用需求的数据写入模块。 活动库需要提供多维度的数据实时查询服务,但是HBase非键数据的查询性能很差,论文设计并实现了二级索引方案,有效的解决了HBase非键数据查询的性能问题,之后根据应用系统的需求实现了多种条件的数据查询方式,为了方便用户使用活动库,提供了通用的数据查询接口和友好的数据查询界面。 数据源的持续性和活动库有限的存储空间相互矛盾,为了保证活动库的正常运行,论文设计了数据生命周期管理方案,对活动库的存储空间进行管理。包括数据生命周期管理模型设计,数据存储价值模型设计,周期性数据老化处理方案和周期性数据删除方案。活动库正式上线后会在真实网络环境中长期运行,为了保证活动库的正常运行,论文设计并实现了运维功能模块,有主机状态监控、进程监控、异常管理、日志管理等内容。 为了更好的表现出目标IP地址的通信行为特征,论文设计并实现了目标IP地址可视化分析模块,从时间维度和空间维度对IP地址的通信行为进行了可视化。IP地址角色挖掘作为活动库的重要应用系统,对活动库的查询性能、系统稳定性等方面进行了测试。