论文部分内容阅读
国内外大中型金融机构的信息系统广泛采用分布式技术,以满足金融业务对并行高性能应用处理和容错的需求。分布式系统所包含的计算设备数目庞大,种类繁多,给系统的运维带来了极大的困难。针对上述问题,各大金融机构的信息系统运维部门普遍采用对策,即通过建设和使用监控系统实现对信息系统故障的自动化预警、告警、性能和容量瓶颈发现以及在发生故障后对故障原因进行综合分析,进而保障信息系统的安全稳定运行。因此,满足大型分布式系统运维需求的监控系统已经成为金融机构的正常运作中不可缺少的核心部件。Agent是具有知识、目标和能力,并能在一定环境下运行的实体。MAS是把多个Agent有机地组织起来,通过一定的通讯方式和协商机制,使其协作完成单个Agent无法完成的任务。由于MAS在系统工程设计和建模上具有良好的分布性、灵活性,应用MAS设计面向大型分布式系统的智能监控系统,能够建立一套易扩展、高智能,适应多数据中心运维的监控系统框架,满足大中型金融机构的信息系统运维需求。利用Agent自身的特性以及MAS在系统工程设计和建模上表现出的优良特征,针对大型分布式系统的监控系统发展的现状和共性问题,结合信息技术的最新研究成果,设计和实现一个面向大中型金融机构和企业,满足分布式系统运维需求的智能监控系统具有重要的理论和现实价值,对于维护我国金融系统稳定,提高我国大中型金融机构的竞争力具有十分重要的意义。论文的主要研究内容包括以下几方面:1.面向大型分布式系统的智能监控系统体系结构研究。针对面向大型分布式系统的智能监控系统的监控对象、系统特征、控制结构和设计原则,提出了混合控制智能监控系统建模方法,即采用整体分布局部集中、底层分布顶层集中的混合控制结构,划分功能Agent,协调Agent间的通信。从而,建立面向大型分布式系统的智能监控系统的体系结构。2.功能Agent设计建模研究。功能Agent结构设计的优劣直接影响监控系统的整体表现,从Agent建模角度进行各采集Agent、事件关联Agent、数据总线Agent、展示Agent的设计和建模研究,针对面向大型分布式系统的智能监控系统自身特点进行各类功能Agent结构的分析和设计,完成各功能Agent结构建模。3.核心监控指标计算方法研究。获得与大型分布式系统的应用和业务监控工作紧密贴合的监控指标是监控系统的核心目标之一。从系统监控指标设计的角度进行核心监控指标计算方法的研究,针对金融行业应用和业务的具体特点进行核心监控指标计算方法的研究,提出针对金融行业应用和业务特点的大型分布式系统可用性和健康度两个监控指标计算方法。4.系统实现。实现面向大型分布式系统的智能监控系统,在工程实践中验证所提出的系统模型和基础理论的可行性和有效性。本文研究成果已全面应用于大连商品交易所信息系统的运维工作中,实现了集中各数据中心、各类监控数据和监控界面于一体,统一管理,统一授权,集中监控。