论文部分内容阅读
随着科学技术和社会经济的发展,武器装备、航空飞行器、流程生产系统等被测对象日益大型化、复杂化和现代化,对测试系统的需求越来越多,同时要求也越来越高,促使现代测试系统向着智能化、自动化和网络化方向发展。目前,计算机技术、自动化技术和通信技术广泛应用于测试系统中,大量的过程数据被采集并存储下来,但是这些包含过程运行状态信息的数据并没有被有效地利用,以致出现了所谓的“数据丰富,信息匮乏”的现象。如何将这些存储的数据变为有用的信息,从中挖掘出过程运行的深层次信息,并利用这些信息提高过程监控能力,正是目前测试系统研究领域的热点之一,也是本文的研究重点。本文以中国工程物理研究院国防技术基础项目的“大量程线加速度计检测技术研究”课题为背景,以数据挖掘为主线,针对不同检测对象的特点对传统的数据挖掘方法作了不同程度的改进,提出了一些新的检测数据分析处理和故障诊断预测的方法。整个工作主要分两大部分,即线加速度计网络测试系统产生的静态数据的挖掘和航空飞行器、流程生产等监控系统产生的动态数据的挖掘。本文的研究成果及核心内容归纳如下:(1)介绍了线加速度计测试数据库及数据发掘系统的项目背景、总体目标,给出了系统的总体设计方案。并对系统开发中用到的关键技术:实时数据库建立、数据挖掘应用以及Matlab与外部程序接口进行了讨论。以运行实例的形式对系统各部分进行了介绍。(2)本论文研究了面向服务的体系结构(SOA),并应用该方法对面向数据挖掘服务的网络测试系统进行了体系结构分析和设计,并构建了原型系统。采用基于实例推理的数据挖掘向导辅助用户完成从数据清理到知识表示的知识发现的全过程。为网络化分布式测试系统共享数据挖掘服务,实现资源共享和服务集成提供了有效方法。(3)数据挖掘中聚类分析作为无监督的学习方法在海量数据的未知信息发掘中起着重要的作用,是广为研究的问题之一。本论文通过对基于密度的算法和基于网格的算法的分析,提出了一种密集单元识别与密度可达对象搜索的等效规则,并由此提出了一种基于网格和密度的聚类算法CLGRID。该算法通过分阶段聚类,并选取种子对象来扩展类,从而减少区域查询次数,降低I/O开销,实现快速聚类。在此基础上针对DBSCAN算法的参数选取困难和难以发现密度相差较大的簇的问题,提出多密度阈值的DBSCAN改进算法,算法采用网格密度矩阵绘制密度分布图,自动确定密度层次划分,通过多密度层次的聚类过程得到多个密度层次上的更加精细的聚类结果,解决了因使用全局ε值而导致的聚类质量恶化问题。(4)时间序列数据挖掘是数据挖掘研究的重要内容,其中时序模式挖掘就是通过挖掘时序数据中的序列模式得到潜在的有用的知识或信息。针对航空武器监控系统和复杂流程工业监控系统中监测变量众多、参数时变、变量间关联耦合严重的现状,提出采用在关联性发现方面具有强大优势的序列模式挖掘,以发现故障产生过程中的一些关联耦合关系,为故障诊断提供依据。本文分析了复杂动态系统监测数据的高维、时变、非同步等动态特征,提出采用异常点标注、故障时窗约束和基于特征元素的时序化简将监控系统的多维时序数据转变为适合挖掘的符号序列集合,运用PrefixSpan算法挖掘体现故障特征信息的序列模式,并在化工生产过程模拟器TE仿真平台上进行了实例验证。(5)本文在国内外学者研究成果的基础上,针对工业监测系统的在线故障识别的需要,提出采用时序数据增量式DFT算法,将各维监控量的时序数据通过增量傅立叶变换的技术映射到频域,取时序序列频域的对故障分类贡献最大的若干系数作为特征系数,进行基于欧几里德距离的相似性查询,实现在线故障预测。