多源数据采集与分析系统的设计与实现

来源 :电子科技大学 | 被引量 : 1次 | 上传用户:candysan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,网络安全问题越来越严重,大量的网络攻击监控数据被采集下来等待分析。这些数据以文本形式被记录下来,仅靠人工分析是一项不可能完成的工作。因此急需一套自动化分析系统来对数据定位、统计、维度计算等。本系统是一个数据仓库系统,主要有两大类数据:原始数据和IP地址库(简称“IP库”)数据。这两类数据都具有“多源”属性。原始数据的多源性体现在来自于不同的采集系统,且类型不同、格式不同;IP库数据的多源性体现在三层IP库模型。原始数据含有基本属性:SourIP(源IP,受攻击方)和DestIP(目的IP,攻击方),IP库数据就是对其进行定位。这就是系统的核心功能。面对海量的原始数据,又要求快速精确的维度分析,本文描述了为何要采用分布式系统(Apache Hadoop)加关系型数据库(SQLServer)的复合架构,以及如何利用这些技术来建设数据仓库。确切的说,就是ETL的建模和实施是如何进行的。首先是原始数据的ETL。采集原始文件装载到Hadoop的HDFS以后,调用API抽取其数据保存到Hive数据仓库中,同时编写Map-Reduce程序对目前已有的各种格式区分处理,清洗,归并,最终加工为“一致”的数据,这里所谓的一致的数据就是“五元组模型”。其次是IP库数据的ETL。五元组数据以文件的形式传递给SQL Server。SQL Server除了要装载五元组数据,还有一类重要的字典数据,就是IP库数据。本文描述了如何建设“三层IP库模型”来满足不同关注度的IP精确定位。每一层IP库都有关联的建立全国的行政区划库与之对应,该库至少包含省(直辖市)、市(区)、区(县)三级的地理区划。把采集来的IP库按照三级区划整理好是ETL工作量较大的部分。数据仓库建好以后,采用B/S架构的Web界面调用T-SQL (SQL Server提供的基于SQL的编程语言)存储过程对数据仓库中的内容进行维度查询和分析,同时完成业务系统的功能:用户操作、用户权限、用户管理、数据可视化等。提供即席查询和必要的检索,提供趋势、统计、图表等数据展现,提供报告的生产和输出。
其他文献
随着市场经济环境的不断变化,给我国烟草行业带来不小的冲击,为了能够更好地适应市场环境,应针对烟草行业的实际情况,提升党建工作水平,完善工作机制,构建"精益党建"新模式,
目的:系统评价筋骨痛消丸治疗膝骨关节炎的临床疗效。方法:计算机检索中外数据库中筋骨痛消丸治疗膝骨关节炎的随机对照试验,经过文献筛选、资料提取及质量评价后,采用Review
谐波对电力系统的安全、稳定、经济运行造成了极大的影响,研究电力系统的谐波问题具有重要的意义,谐波检测是研究谐波问题的出发点和主要依据。在众多的谐波检测方法中,FFT由
<正>目前在中国,患者对医院服务的需求仍处于初期标准化阶段,医院对员工的要求是落实服务规范,所以,基于"服务落实度调查"的HCAHPS满意度测评方法更适合中国医院但是HCAHPS是
<正>美国人类基因组研究所在去年4月的基因组测序价格只有5826美元。尽管如此,全基因组测序却仍价格不菲。外显子组之于基因组就像是研究论文的摘要:简洁、信息量大且易于消
<正>山西是一个文化大省,文物大省,有着中国传统文化最优秀的成果。面对大批地上地下珍贵文物,后人要承接、弘扬,承前启后,让世界了解山西,让山西走向世界。
目的:内分泌治疗是Luminal型乳腺癌的重要治疗方法,但原发或继发性内分泌治疗耐药问题已成为乳腺癌临床治疗的一大难题。有研究显示人髓细胞白血病因子1相互作用蛋白基因(The
世界各国,尤其是发展中的国家,都面临一个共同的课题:人口老龄化。根据我国的具体国情,人口流动量大、城市务工人员多,导致留守老人与留守儿童人口众多等,集中养老方便政府管
利用透射电镜和离心分离法对氢氧化镁铝胶体微粒与纤维和阴离子聚丙烯酰胺的吸附作用进行了研究。结果表明,带有正电荷的氢氧化镁铝胶体与阴离子聚丙烯酰胺和纤维、细小纤维
在工业科技高速发展的今天,许多产品的制作大都来源于工业化生产,于是人们对于无法用机器来复制的创意手工产品兴起了一股热潮。几千年来出现了如许的手工艺品种类,从剪纸,年