论文部分内容阅读
随着网络信息技术的迅猛发展和普及,网络应用及流量呈现出前所未有的增长趋势。因此,对于海量异构数据的分析挖掘工作也变得异常困难。网络数据包作为网络大数据分析与挖掘的基础,通过对其分析能够对当前的网络态势进行精准预判。本文设计并实现了分布式数据包采集与回溯分析系统。该系统可以实现对网络数据包的采集、存储、分析功能。分布式数据包采集与回溯分析系统既能为网络优化提供真实的网络历史状态数据,又可以为评估网络状态、预测未来的发展趋势提供依据。本文详细介绍了分布式数据包采集与回溯分析系统的设计与模块开发工作。首先,针对业务需求,结合网络数据包采集与分析的相关技术,对分布式数据包采集与回溯分析系统进行了功能性和非功能性需求分析;其次,根据需求分析的结果,设计并实现了系统整体的功能构架和技术构架,并阐述了各个子模块的设计与实现。最后,分布式数据包采集与回溯分析系统通过实际部署测试,验证了该系统在海量数据下的采集、存储与分析能力,以及在海量数据下系统的查询性能以及系统的稳定性和可扩展性。分布式数据包采集与回溯分析系统的核心模块主要包括数据包采集模块、GPU并行分析模块、回溯分析模块以及数据存储模块,其中采集模块使用Go语言基于Libpcap与BPF等技术实现,可对网络数据包进行过滤采集;同时系统运用GPU与HDFS文件系统等相关技术,实现了对数据包并行解析以及存储等功能,极大提高了分布式数据包采集与回溯分析系统的性能。