论文部分内容阅读
在数十万亿次以上规模的高性能计算机上,高性能科学计算的数值模拟可能输出大规模时变数据集。这些数据集由数据子集序列构成,数据总量可能达到十亿字节(GB)至万亿字节(TB),每个数据子集表示物理问题在某个时刻的数值离散解。面对如此大规模的时变数据集,如何快速地开展物理分析,去伪存真,将数据转化为知识,进而发现新的物理现象、揭示新的物理规律、探索新的物理机制,是科学计算研究的重要一环。在传统可视化分析的基础上,为了提高物理分析的效率,可以采用数据挖掘算法。这些算法基于已知的物理知识来标识重要的物理时刻和局部兴趣区域,发现物理量间的相关性,可以成为物理分析的关键支撑技术。但是,现有的商业数据挖掘算法均难以适应,因为它们通常针对各种属性的关联规则,不能适应于数值型数据。因此,有必要开展系统深入的科学计算时变数据集的数据挖掘算法研究。对科学计算时变数据集而言,数据挖掘至少可以实现三个方面的功能。第一,比较任意两个相邻时刻的数据子集的相似度;第二,标定可能蕴含丰富知识的局部计算区域和时间步;第三,判断任意两个物理量之间的相关程度。这三个方面的研究对物理分析有重要意义,它可以在大规模科学计算时变数据集中,迅速挑出蕴含重要物理特征的时刻或者子区域,发现物理量之间的线性或非线性相关性,可以提高数据分析的速度与效率,降低分析的难度。信息熵理论是一门利用数理统计方法研究信息度量的科学。它不依赖于数据的维数、空间位置、单位等信息,能对数据的内在特征进行定量表征,可以用于描述科学计算时变数据集中所蕴含的信息,而这些正是找出蕴含潜在有用信息的时刻或子区域所需要的。因此,信息熵理论可以作为数据挖掘的基础。本课题基于信息熵理论,针对科学计算时变数据集物理分析对数据挖掘提出的三个方面的需求,紧密围绕时变数据集序列约减、变化检测和物理量非线性相关性的检测算法三个方面开展研究,取得了如下创新的研究成果:(1)针对科学计算时变数据集,分析了信息度量应用于数据挖掘的可行性,并提出了科学计算时变数据集的非均匀直方图构建算法。该算法通过迭代得到科学数据集的概率分布,具有较好的自适应性。(2)提出了时变数据集序列的子集约减数据挖掘算法。该算法采用关联信息测度度量算法来度量数据子集间的相关性,仅存储相关程度低的数据子集。这些子集已经蕴含了时变数据集序列的重要物理特征。于是,可以大幅降低数据集的存储空间,提高物理分析的效率。具体应用于激光与等离子体相互作用模拟,获得了满意的数据挖掘结果。(3)基于交互信息距离,提出了时变数据集序列的变化检测数据挖掘算法。该算法可以在数据集序列中挖掘突变的时间步或者子区域,减少数据分析或可视化的工作量。具体应用于高斯序列与激光与等离子体相互作用模拟,效果良好。(4)基于信息冗余度,提出了时间序列中物理参量非线性相关性的检测算法。该算法引入振幅调节傅立叶变换算法生成替代数据,利用信息冗余度作为检验统计量进行统计检验,研究了检测单物理参量或多物理参量非线性相关性的数据挖掘算法。通过几种常见的时间序列测试,验证了该数据挖掘算法的有效性。