论文部分内容阅读
随着互联网行业的迅猛发展,支撑互联网公司业务扩张的Linux集群规模越来越大,传统的服务器运维管理模式已经不能满足业务需求,因此国内各大互联网公司均使用自动化运维平台对Linux集群进行统一管理。纵观国内互联网公司运维平台发展的现状,运维平台设计的思路类似,实现的方式不尽相同。Linux集群运维平台设计面临着诸多挑战,如互联网产品突发的流量变化,互联网产品后台服务之间复杂的关联关系,需要支撑互联网研发团队快速迭代的开发模式,运维平台稳定性及安全性的极高要求。本文主要阐述自动化运维平台中与信息安全相关的模块(用户权限管理、日志审计系统)的设计与实现。文中阐述了基于LDAP及Kerberos技术构建用户权限验证服务的过程,并提出使用Rsyslogd工具收集验证服务的日志以保证用户权限验证服务的安全性;文中描述了基于Fluentd及MongoDB技术构建日志审计系统的设计思路及实现细节,并通过案例分析,介绍日志审计系统在生产环境中的实践。首先,文中阐述了用户统一认证技术研究现状,安全性日志分析及海量日志实时分析处理方法的研究现状。通过分析,论文提出了使用LDAP和Kerberos技术为基础构建用户用户权限统一认证服务,并通过Rsyslogd收集用户权限统一认证服务的日志;日志审计部分,文中描述了Splunk,Scribe,Hive等国内外流行的海量日志分析工具的优缺点,论文最终提出了以Fluentd/MongoDB为技术基础构建Linux集群运维平台日志审计系统;基于Fluentd开发日志收集工具,将日志推送到MongoDB,利用MongoDB的灵活性和高性能解决海量日志分析的实时性问题。安全性审计方面,论文基于Mongodb中存储的实时日志数据,使用运维团队在实践工作中积累的规则引擎进行安全性实时匹配,对可能存在的黑客入侵行为进行实时分析及告警。在此基础上,文中详细阐述了如何安装和配置LDAP及KDC服务器,以及如何使用LVS/Keepalived技术实现用户权限认证服务的高可用性。文中描述了互联网公司负载均衡服务器构建的方式,分析了工作在第一线的运维工程师对Linux集群运维平台的具体需求,运维工程师需要利用Linux集群运维平台精确把握网站各个域名的实时健康状况,响应时间的变化趋势,在黑客入侵行为发生时能第一时间接受到报警信息。实现的难点是需要处理日志量太大,网站每天都会产生将近TB级别的日志,而且日志文件太分散,很难进行集中式的分析。文中阐述了如何配置Fluentd日志收集插件,使得分散在各个数据中心的。MongoDB日志存储方案具体设计,及日志实时分析程序的设计思路及实现方法。文中详细分析了Fluentd/Mongodb解决方案开发过程中遇到的问题是如何解决的,包括MongoDB旧数据清理及MongoDB数据查询性能优化。最后,论文描述了对Linux集群运维平台用户权限管理及日志审计模块进行了性能和功能两方面验证的实践过程。性能验证方面,LDAP、Kerberos认证服务器以良好的性能通过了压力测试,日志审计系统对日志实时处理的能力也达到了设计需求。功能验证方面,文中描述了一次黑客入侵行为从发现到被解决的全过程,运维工程师是如何利用日志审计系统进行安全性监控,并防范黑客的再次攻击。