论文部分内容阅读
【摘 要】近年来,经济的发展,促进我国科技水平的提升。随着科技的进步信息通信系统日渐一体化、集群化、复杂化,数据爆炸性的增长导致数据库及中间件规模成无序增长态势。现有数据库、中间件监控技术不能主动发现问题、定位问题,运维业务系统繁多、流程复杂、服务响应时长。通过对数据库及中间件自动化运维监测系统的研究,建立了安全、高效的数据库及中间件自动化运维管理体系,实现了对主机、中间件、数据库的基本信息的监控,实时发现异常信息并发出告警信息。本文就数据库及中间件自动化运维监测系统展开探讨。
【关键词】数据库;中间件;自动化运维
引言
构建一个智能的自动化运维监控平台,以运行监控和故障报警这两个方面为重点,将所有信息系统中所涉及的系统功能模块和数据库等纳入运维监控平台中,主要收集网络数据、业务系统数据、数据库及iis、tomcat等日志数据,然后将收集到的数据进行提取需要的数据到监控报警模块,进行报警规则设置、报警阀值设置、报警联系人设置和报警方式设置等。
1监控目标
实时不间断监控主机、中间件、数据库运行指标,及时提供报警,避免异常带来的损失,解决传统运维人员被动、效率低的问题;为企业提高运维效率,帮助企业简化运维管理流程;保证服务可靠、安全、稳定运行;监控目标若出现故障,能够第一时间进行报警,及时处理解决,从而保证业务持续性的稳定运行;建立衡量数据库中间件自动化运维的标准,通过电力行业特定领域广泛认同的最佳实践,制定一系列与自动化运维有关的KPI维度,主要包括稳定性、问题发现和整体运行状况预期的对比,来评估数据库中间件系统;实时地、量化地集中采集监测数据库及自动化运行指标,确保IT组件管理及运维能力成为业务增长的强大助力。通过数据库及中间件自动化运维监测系统系统可以帮助全面掌握中间件,数据库信息,及时监控避免故障带来的损失解决传统运维人员被动、效率低的问题;帮助一线运维人员从繁忙的日常检查工作中解脱出来,提高运维效率;自动化运维系统可以帮助企业简化运维管理流程,提升管理水平;通过采用该系统减少运维人员数量,提升运维水平,帮助企业节约运维成本。
2设计思路与实现
(1)短信通知功能。使用IDEA,JDK1.6,Java语言,SQLServer2008数据库开发,具体功能设计为:定时从数据库中获取需要监测的路径,测试连接情况。如果監测到状态变动(从上一次正常联通到该次连接失败,或者从上一次连接失败到该次连接成功),则根据运维系统中记录的相应管理人员手机号码发送短信,提醒运维人员查看邮件报警的详细信息,并解决问题。同时把此次短信内容、收件人和时间记录在运维服务器。(2)错误现场拍照。使用IDEA,JDK1.6,Java语言,SQLServer2008数据库开发,具体功能设计为:定时从数据库中获取需要监测的路径,测试连接情况。如果监测到状态变动,则利用java环境自带的threaddump功能实现java环境下的现场拍照,把错误信息通过邮件发送至运维系统中记录的相应管理人员邮箱,以供运维人员根据错误现场追踪和修复错误,同时把此次邮件内容、收件人和时间记录在运维服务器。(3)数据库备份检查功能。使用VS2010,FrameWork4.5,C#语言,SQLServer2008数据库开发,具体功能设计为:对目标文件夹内的文件变动进行监测,在变动发生时、结束时,将文件属性情况各发一封邮件通知指定用户。各系统管理员自行部署到数据库服务器,可以监测一个或多个文件夹,可以由一个或多个邮箱接收监测信息,可以监测文件夹内文件的增、删、改和重命名情况。同时根据管理员的设计自动实现数据的迁移和备份工作。
3自动化运维监控系统说明
(1)系统架构。WEb展现门户(业务视图;资源管理;监控配置;统计报表;告警管理;系统配置);业务层web系统;采集系统;数据库;远程监控端。(2)架构优势。深入监控数据库、中间件、主机运行细节和历史信息;高效,显著提高运维效率;跨平台、易集成、易部署;生态、优化,不在被监控端安装任何agent或插件,降低资源额外消耗和部署风险。(3)系统特色。易理解;易分析;易配置;易修改;易测试;页面布局合理;通用操作规范;出错处理。(4)功能说明。通过对目前IT系统环境和管理现状的分析,我们需要建设一套统一的业务系统监控平台,这个平台应该包括以下的管理需求:统一的设备、系统运行信息采集平台;统一的数据处理和展现平台;统一的告警平台;统一的人员、权限的管理平台。在这样一个大环境下,结合上述需求,我们建立一个数据库及中间件检测系统,该系统以实现“无人值守式的自动化运维”与“无死角监控,及时发现问题”相接合的运维模式为目标。对被监控目标的平台本身及其承载的应用业务进行性能的自动监控、分析、报警、统计和日常运维任务的自动化执行。实现对系统运行状态的自动化监控。支持对不同设备、不同日期和时段设置差异化的监控频率,支持BS方式对当前监控数据的实时刷新展示和历史监控数据的回看展示,支持对监控点进行监控用途描述,支持对监控点上下阀值的实时显示,支持监控的异常数据实时手机短信报警,支持将指定日期、时间、频率采集的监控数据自动生成巡检报告。
4多元化告警方式
多元化的告警包括短信告警、界面告警、机房语言告警及电话告警等,将相对应的告警信息通过不同的方式发送到不同的运维人员处。(1)告警阀值设置:实现对各类监控指标告警阀值上下限设置,并在接收到实时数据时进行数据校验,对不在范围内的指标做出信息告警动作。(2)告警种类设置:对各类系统监控指标进行归类管理,以明确各项指标的数据来源及影响范围。其中一级分类以数据来源区分。(3)阶段告警策略:根据不同类型告警信息,实现阶段性的信息告警策略设置。(4)延时告警策略:按告警类型设置可延时的告警时长,如该指标在延时判断期内恢复,系统只形成告警记录,不执行告警动作策略。(5)告警方式设置:针对不同类型告警信息,设置不同方式的告警。(6)告警人员设置:在各类告警模式下,根据运维人员的责任分工及工作时间段,可灵活的将不同的运维人员添加到不同的告警策略中,完成告警信息的准确传输。(7)告警等级设置:根据各类指标在系统运行中的重要性,实现告警等级的划分,如一般告警、重要告警及紧急告警,在运维人员接收到告警信息后,可根据告警等级对故障做有序的跟踪及处理。
结语
通过数据库自动化运维管理可以对于数据库的各项指标进行监控,实时发现异常信息并发出告警信息。实现数据库的自动化性能监测,自动发现数据库性能问题,提醒数据库管理员及时解决数据库告警,性能指标可度量和可视化,稳步提升数据库系统的整体性能,支持数据库瓶颈判断和SQL语句消耗资源监控,大大提高工作效率和提升运维水平,及时发现数据库性能问题,及时解决数据库告警,性能指标可度量和可视化,在减少运维工作人力投入的情况下,更能有效地保障数据库的正常运行,保障各业务系统的平稳运行,为整个应用系统的优化、整合、扩容等关键决策提供可靠数据支撑。
参考文献:
[1]乔凯,沈苏彬.一种网络监测软件的分析与改进[J].南京邮电大学学报(自然科学版),2015(01).
[2]李艳艳.大型ORACLE数据库优化设计方案[J].才智,2017(33).
(作者单位:信息化管理中心普光项目部)
【关键词】数据库;中间件;自动化运维
引言
构建一个智能的自动化运维监控平台,以运行监控和故障报警这两个方面为重点,将所有信息系统中所涉及的系统功能模块和数据库等纳入运维监控平台中,主要收集网络数据、业务系统数据、数据库及iis、tomcat等日志数据,然后将收集到的数据进行提取需要的数据到监控报警模块,进行报警规则设置、报警阀值设置、报警联系人设置和报警方式设置等。
1监控目标
实时不间断监控主机、中间件、数据库运行指标,及时提供报警,避免异常带来的损失,解决传统运维人员被动、效率低的问题;为企业提高运维效率,帮助企业简化运维管理流程;保证服务可靠、安全、稳定运行;监控目标若出现故障,能够第一时间进行报警,及时处理解决,从而保证业务持续性的稳定运行;建立衡量数据库中间件自动化运维的标准,通过电力行业特定领域广泛认同的最佳实践,制定一系列与自动化运维有关的KPI维度,主要包括稳定性、问题发现和整体运行状况预期的对比,来评估数据库中间件系统;实时地、量化地集中采集监测数据库及自动化运行指标,确保IT组件管理及运维能力成为业务增长的强大助力。通过数据库及中间件自动化运维监测系统系统可以帮助全面掌握中间件,数据库信息,及时监控避免故障带来的损失解决传统运维人员被动、效率低的问题;帮助一线运维人员从繁忙的日常检查工作中解脱出来,提高运维效率;自动化运维系统可以帮助企业简化运维管理流程,提升管理水平;通过采用该系统减少运维人员数量,提升运维水平,帮助企业节约运维成本。
2设计思路与实现
(1)短信通知功能。使用IDEA,JDK1.6,Java语言,SQLServer2008数据库开发,具体功能设计为:定时从数据库中获取需要监测的路径,测试连接情况。如果監测到状态变动(从上一次正常联通到该次连接失败,或者从上一次连接失败到该次连接成功),则根据运维系统中记录的相应管理人员手机号码发送短信,提醒运维人员查看邮件报警的详细信息,并解决问题。同时把此次短信内容、收件人和时间记录在运维服务器。(2)错误现场拍照。使用IDEA,JDK1.6,Java语言,SQLServer2008数据库开发,具体功能设计为:定时从数据库中获取需要监测的路径,测试连接情况。如果监测到状态变动,则利用java环境自带的threaddump功能实现java环境下的现场拍照,把错误信息通过邮件发送至运维系统中记录的相应管理人员邮箱,以供运维人员根据错误现场追踪和修复错误,同时把此次邮件内容、收件人和时间记录在运维服务器。(3)数据库备份检查功能。使用VS2010,FrameWork4.5,C#语言,SQLServer2008数据库开发,具体功能设计为:对目标文件夹内的文件变动进行监测,在变动发生时、结束时,将文件属性情况各发一封邮件通知指定用户。各系统管理员自行部署到数据库服务器,可以监测一个或多个文件夹,可以由一个或多个邮箱接收监测信息,可以监测文件夹内文件的增、删、改和重命名情况。同时根据管理员的设计自动实现数据的迁移和备份工作。
3自动化运维监控系统说明
(1)系统架构。WEb展现门户(业务视图;资源管理;监控配置;统计报表;告警管理;系统配置);业务层web系统;采集系统;数据库;远程监控端。(2)架构优势。深入监控数据库、中间件、主机运行细节和历史信息;高效,显著提高运维效率;跨平台、易集成、易部署;生态、优化,不在被监控端安装任何agent或插件,降低资源额外消耗和部署风险。(3)系统特色。易理解;易分析;易配置;易修改;易测试;页面布局合理;通用操作规范;出错处理。(4)功能说明。通过对目前IT系统环境和管理现状的分析,我们需要建设一套统一的业务系统监控平台,这个平台应该包括以下的管理需求:统一的设备、系统运行信息采集平台;统一的数据处理和展现平台;统一的告警平台;统一的人员、权限的管理平台。在这样一个大环境下,结合上述需求,我们建立一个数据库及中间件检测系统,该系统以实现“无人值守式的自动化运维”与“无死角监控,及时发现问题”相接合的运维模式为目标。对被监控目标的平台本身及其承载的应用业务进行性能的自动监控、分析、报警、统计和日常运维任务的自动化执行。实现对系统运行状态的自动化监控。支持对不同设备、不同日期和时段设置差异化的监控频率,支持BS方式对当前监控数据的实时刷新展示和历史监控数据的回看展示,支持对监控点进行监控用途描述,支持对监控点上下阀值的实时显示,支持监控的异常数据实时手机短信报警,支持将指定日期、时间、频率采集的监控数据自动生成巡检报告。
4多元化告警方式
多元化的告警包括短信告警、界面告警、机房语言告警及电话告警等,将相对应的告警信息通过不同的方式发送到不同的运维人员处。(1)告警阀值设置:实现对各类监控指标告警阀值上下限设置,并在接收到实时数据时进行数据校验,对不在范围内的指标做出信息告警动作。(2)告警种类设置:对各类系统监控指标进行归类管理,以明确各项指标的数据来源及影响范围。其中一级分类以数据来源区分。(3)阶段告警策略:根据不同类型告警信息,实现阶段性的信息告警策略设置。(4)延时告警策略:按告警类型设置可延时的告警时长,如该指标在延时判断期内恢复,系统只形成告警记录,不执行告警动作策略。(5)告警方式设置:针对不同类型告警信息,设置不同方式的告警。(6)告警人员设置:在各类告警模式下,根据运维人员的责任分工及工作时间段,可灵活的将不同的运维人员添加到不同的告警策略中,完成告警信息的准确传输。(7)告警等级设置:根据各类指标在系统运行中的重要性,实现告警等级的划分,如一般告警、重要告警及紧急告警,在运维人员接收到告警信息后,可根据告警等级对故障做有序的跟踪及处理。
结语
通过数据库自动化运维管理可以对于数据库的各项指标进行监控,实时发现异常信息并发出告警信息。实现数据库的自动化性能监测,自动发现数据库性能问题,提醒数据库管理员及时解决数据库告警,性能指标可度量和可视化,稳步提升数据库系统的整体性能,支持数据库瓶颈判断和SQL语句消耗资源监控,大大提高工作效率和提升运维水平,及时发现数据库性能问题,及时解决数据库告警,性能指标可度量和可视化,在减少运维工作人力投入的情况下,更能有效地保障数据库的正常运行,保障各业务系统的平稳运行,为整个应用系统的优化、整合、扩容等关键决策提供可靠数据支撑。
参考文献:
[1]乔凯,沈苏彬.一种网络监测软件的分析与改进[J].南京邮电大学学报(自然科学版),2015(01).
[2]李艳艳.大型ORACLE数据库优化设计方案[J].才智,2017(33).
(作者单位:信息化管理中心普光项目部)