论文部分内容阅读
随着电力行业线损管理系统的持续运行,电力企业积累了大量的线损历史数据,传统的信息管理方式已不能科学、有效的处理和利用这些信息,更未能从中发现潜在的具有经济价值的信息。将数据仓库理论应用于电力系统线损分析,可对各种业务数据库进行关联分析,优化现有资源、集成现有系统信息、发挥整体优势,为各层次的管理人员提供有效的决策支持。本文从实际应用的角度出发,采用数据仓库理论对线损数据仓库平台的设计、实现和数据仓库中重复记录的清理策略这三部分进行了重点研究。首先,针对目前线损计算、分析系统的结构和特点,采用DB-ODS-DW (Database-Operational Data Store-Data Warehouse)三层结构设计了线损数据仓库平台的体系结构;采用星型模型给出了线损数据仓库平台详细的建模过程。传统的DB-DW(Database-Data Warehouse)两层体系结构,很难实现实时分析和挖掘应用,在体系结构中引入ODS(Operational Data Store)很好的解决了两层结构存在的效率低、实时支持能力差、数据集成困难等问题。其次,采用Oracle数据库和OWB(Oracle Warehouse Builder)工具建立了以线损分析为目的的数据仓库平台,完成电力行业的业务信息整合,实现业务数据的多维分析,为管理人员提供有效的决策支持。最后,针对重复记录清理策略中的“排序、识别、合并”算法存在的问题进行了改进。改进后的重复记录清理算法在保证记录匹配率的情况下,有效地提高了记录排序的效率;在识别重复记录时,考虑了匹配字段的文字数量、出现的频率、记录中各字段的重要性(权重)、中文字段的语义及语义重点偏后等因素,有效地提高了重复记录识别算法的准确性和健壮性;在合并重复记录时,采用了聚类和实用算法并用的策略,大大提高了重复记录的清理速度,在很大程度上减少了用户的工作量。