数据库智能巡检系统在企业信息化建设中的实践应用

来源 :中国信息化 | 被引量 : 0次 | 上传用户:xiange
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  “数据管理一直是任何关键任务IT计划成功的关键。”—Gartner
  作为IT业务的核心模块,数据库的重要性毋庸置疑,数据库的稳定运行直接关系到应用系统的可用、稳定、高效性。因此,企业必须建立数据库监控体系,7x24实時监控数据库的运行状态,在数据库即将出现问题或已经出现问题时,通过立即触发事件来及时预警,使运维人员能够及时予以处理,确保数据库稳定、高效的正常运行。

一、国家电网公司西北分部现状


  在国家电网分部信息化建设大力推进下,国网西北分部信息化建设步伐大大加快,目前已经建成十几个重要业务系统,数据覆盖了国网西北分部生产,经营,战略,财务、运营等各方面的信息,几乎所有的经营活动所依赖的信息普遍采用数据库进行管理和存储,这些数据库的安全稳定运行是保障整个国网西北分部信息业务系统正常运行的基本条件。因此,数据库的维护工作成为了保障业务稳定运行的重点内容。
  目前国网西北分部数据库诊断及调优工作,仍采用DBA手工分析管理的方式进行,问题的诊断与优化完全依赖于DBA的经验,虽然能够解决部分数据库性能问题,但过分依赖人员经验。不同DBA对于数据库的诊断与调优结果不同,同时由于数据库隐患排查手段不全,对于已经暴露的数据库问题能够进行故障诊断与优化,但对于一些隐藏的问题无法发现,对于数据库的隐患全面排查工作难以开展,导致了数据库内部仍然存在性能及功能隐患。

二、数据库智能巡检的实践


  (一)建设目标
  优化数据库系统运维管理水平,实现数据库的全面自动化监控、故障诊断预测、深层次故障分析、数据库状态统计报告、数据库变更管理以及性能瓶颈分析以及优化建议管理,开展数据库故障诊断和优化工具项目建设,使数据库管理模式从原有的分散式的完全依赖DBA水平的管理方式转变为集中的、统一、高效的管理模式,并建立数据库的统一管理规范。
  (二)需求调研
  为满足数据库满足国网西北分部内部多数据库统一集中管理、故障诊断和优化的实际需要,数据库智能巡检系统需要满足以下要求:
  1.故障诊断预测功能
  能够监控数据库配置变化等信息,可以提前发现性能瓶颈,及时通知管理人员,在告警到来之前就着手解决故障,防止故障蔓延、恶化,影响最终用户。
  2.深层次故障分析
  通过7x24的实时收集数据,可以对任意时间段的故障问题进行语句级的深层次分析,相应使用资源的数据库、程序、操作系统用户、客户端、数据库用户、上下文信息和命令类别等详细的信息。
  3.统计报告
  可以随时根据需要生成DBA所需要的负荷统计报告、活动报告、健康检查报告以及与特定时间性能状况与性能基线比较的报告。



  4.变更追踪/瓶颈分析/优化建议
  可以追踪变更数据,实现对数据库全面的健康检查,并按问题的优先级提供解决建议。
  (三) 系统实现
  1.系统架构
  从系统功能可以将系统分为三层架构:
  (1)采集服务
  实现被监控数据库的运行数据采集;
  (2)应用服务
  实现采集、分析任务的调度,完成对采集信息的实时分析,实现预警和告警,并提供对外访问的接口与服务;
  (3)数据存储
  用于存储采集到的被监控数据库的运行信息;
  系统的架构具体如图1所示。
  2.功能结构实现
  根据数据库智能巡检的需求,结合国网西北分部现有环境,采用目前成熟的远程数据获取技术,实现数据库的全面监控与分析等功能。
  (1)数据库监控
  以动态仪表图进一步展现单个数据库实例的性能,覆盖数据库实例各个组件与各种资源、活动的重要性能指标,依照组件、资源与活动结构布局清晰,实时指标数值和历史曲线相结合。
  (2)数据库瓶颈分析
  通过多维工作负载分析、锁定和等待分析、变更跟踪、I/O分析、执行计划分析等功能,对SQL语句的性能消耗数据、执行频率、是否存在锁阻塞等方面进行深入的额分析和诊断,查找造成问题的根源SQL语句。
  (3)数据库SQL语句自动优化
  运用人工智能技术,穷尽所有的可能的SQL改写方法和数据库的优化提示,输出语意等价、语法正确的SQL语句列表;分析SQL语句的语法和SQL语句中表和表之间的关系,给出最适合的备选索引建议。
  (4)空间问题探测
  自动监控数据库表空间和数据文件的配置和使用情况,针对使用百分比过高的表空间或者无法自动扩展的数据文件进行报警。
  (5)容量规划模块
  监控数据库所有参数,并对参数的修改状态进行追踪显示。
  (6)变更追踪
  自动追踪操作系统和数据库的各种变更,并分析结合与之相关联的性能状态变化。
  (7)告警监控
  支持告警规则设置功能,提供包括报警条件、报警阈值、报警严重级别、报警提示信息、报警生效、实效时间段、报警动作的定制功能。
  3.实施环境
  本次数据库智能巡检系统建设主要部署数据库响应分析模块、数据库结构分析和事务分析模块以及集中管理展示平台,实施环境如表1所示:


三、系统实施效果


  经过两个多月的系统建设,国网西北分部建成了完整的数据库智能巡检可视化监控平台,并建立了完善的数据库运行指标监控指标和规范,通过远程数据库信息采集,获取各个业务系统数据库的实例指标、性能指标、可用性指标、SESSION指标、锁状态、I/O状态、表空间指标、日志指标、无效对象、内存区等一系列运行指标,实现了数据库系统的深入管理,从可用性、性能、优化、容量等多个角度管理数据库,发现数据库内部隐含问题,进行针对性的调优,提升数据库的运行稳定性,从而实现对业务系统稳定运行的全面保障。
  (一)实现了可视化的数据库运行状态监控
  通过构建数据库智能巡检系统,实现了西北分部全面、可视化、精细化监控关键业务系统的数据库性能;能够对数据库系统的运行参数实现自动化监控,并同时对运行数据库的主机运行状态进行监控;能够对数据库性能、资源占用情况、数据库瓶颈、数据库变更等数据进行深入分析;能够对低效数据库SQL语句进行优化建议;实现了数据库的容量分析以及优化调整。
  (二)全面的数据库监控架构
  通过分析和归纳数据库监控的历史数据,挑选了60多个监控指标进行集中监控,从运行稳定性出发,实现了对数据库关键KPI指标的7x24小时不间断监控,并通过专门定制的Performance视图展示数据库的总体性能情况和安全状态。通过实时监控指标的分析及处理,为DBA提供包括数据库监控、瓶颈分析、优化建议、容量规划等一系列功能,最终实现了管理人员数据库诊断预测、数据库深层次故障分析、数据库统计报告、数据库表更追踪、数据库瓶颈分析、数据库自动化监控等业务需求。
  (三)关键数据库系统的实时预警与告警
  通过对历史数据的聚合分析,突破传统的阈值方式,采用基线和多指标联合的告警模式,实现了数据库运行状态的预警,极大地提供了数据库的运行稳定性。

四、结束语


  国网西北分部根据已有的运维经验,以数据库核心运行指标作为切入点进行面向业务的数据库智能巡检研究,通过建设数据库智能巡检系统平台,借助技术手段实现自动化、实时化的数据库故障诊断和优化功能,降低了管理工作负荷,完善了数据库管控的能力。后續还将投入更多的技术力量,结合人工智能、数据挖掘和机器学习算法进一步提升智能化的监控能力,提高数据库运维能力和自动化水平,保障业务系统稳定运行。
  作者单位:李欣 国家电网公司西北分公司刘颖,卢永刚,董明杰 国网陕西省电力公司信息通信公司
其他文献
目的:探讨中医辨证分型治疗康复期肺癌患者的临床疗效。方法将84例康复期肺癌患者按照自愿原则分成观察组44例与对照组40例,对照组给予西医对症支持疗法,观察组给予中医辨证
“坚持以人民为中心的创作导向,努力创作更多无愧于时代的优秀作品。”这是习近平总书记对广大新闻工作者的要求,也是做好电视综艺节目的核心标准。
目的:探讨剖宫产手术后晚期产后出血的发病原因及其治疗方法和效果。方法资料选取2012年3月~2013年3月我院收治的30例剖宫产手术后晚期产后出血的患者,对其临床资料进行回顾
中国文化发展到唐代,开始逐渐从愚昧的图腾崇拜中摆脱出来,显得理性化与生活化。与世界各国的交流,使得唐代的服饰、装饰纹样等都充满着鲜明的特点,体现着强烈的人文主观意识
随着互联网用户的快速增长,多样化、个性化、内容海量化和大数据化的网络需求使当前网络面临着很大挑战。而传统网络本身又面临很多问题,如可扩展性差,缺乏QoS保障,安全性问
目的探讨血清胱抑素C(serum cystatin C,Cys C)在诊断足月新生儿高胆红素血症相关急性肾损伤(acute renal injury,AKI)中的作用。方法选择2015年6月至2016年6月在本院诊治的2
文章通过对中国管理科学研究院武书连课题组《2015中国大学评价》公布的各高校大学评价主要指标得分与2015年7月更新的ESI数据库各项指标数据进行相关和回归分析,得出研究结
第一部分大鼠后足切割急性痛过程中焦虑样行为与机械性痛敏的关系目的:观察大鼠后足切割急性疼痛过程中是否伴有焦虑样行为,及其与机械性痛敏的关系,并探讨吗啡与加巴喷丁对焦