科学计算时变数据集的数据挖掘算法研究

来源 :中国工程物理研究院 | 被引量 : 1次 | 上传用户:CBHHOLY
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在数十万亿次以上规模的高性能计算机上,高性能科学计算的数值模拟可能输出大规模时变数据集。这些数据集由数据子集序列构成,数据总量可能达到十亿字节(GB)至万亿字节(TB),每个数据子集表示物理问题在某个时刻的数值离散解。面对如此大规模的时变数据集,如何快速地开展物理分析,去伪存真,将数据转化为知识,进而发现新的物理现象、揭示新的物理规律、探索新的物理机制,是科学计算研究的重要一环。在传统可视化分析的基础上,为了提高物理分析的效率,可以采用数据挖掘算法。这些算法基于已知的物理知识来标识重要的物理时刻和局部兴趣区域,发现物理量间的相关性,可以成为物理分析的关键支撑技术。但是,现有的商业数据挖掘算法均难以适应,因为它们通常针对各种属性的关联规则,不能适应于数值型数据。因此,有必要开展系统深入的科学计算时变数据集的数据挖掘算法研究。对科学计算时变数据集而言,数据挖掘至少可以实现三个方面的功能。第一,比较任意两个相邻时刻的数据子集的相似度;第二,标定可能蕴含丰富知识的局部计算区域和时间步;第三,判断任意两个物理量之间的相关程度。这三个方面的研究对物理分析有重要意义,它可以在大规模科学计算时变数据集中,迅速挑出蕴含重要物理特征的时刻或者子区域,发现物理量之间的线性或非线性相关性,可以提高数据分析的速度与效率,降低分析的难度。信息熵理论是一门利用数理统计方法研究信息度量的科学。它不依赖于数据的维数、空间位置、单位等信息,能对数据的内在特征进行定量表征,可以用于描述科学计算时变数据集中所蕴含的信息,而这些正是找出蕴含潜在有用信息的时刻或子区域所需要的。因此,信息熵理论可以作为数据挖掘的基础。本课题基于信息熵理论,针对科学计算时变数据集物理分析对数据挖掘提出的三个方面的需求,紧密围绕时变数据集序列约减、变化检测和物理量非线性相关性的检测算法三个方面开展研究,取得了如下创新的研究成果:(1)针对科学计算时变数据集,分析了信息度量应用于数据挖掘的可行性,并提出了科学计算时变数据集的非均匀直方图构建算法。该算法通过迭代得到科学数据集的概率分布,具有较好的自适应性。(2)提出了时变数据集序列的子集约减数据挖掘算法。该算法采用关联信息测度度量算法来度量数据子集间的相关性,仅存储相关程度低的数据子集。这些子集已经蕴含了时变数据集序列的重要物理特征。于是,可以大幅降低数据集的存储空间,提高物理分析的效率。具体应用于激光与等离子体相互作用模拟,获得了满意的数据挖掘结果。(3)基于交互信息距离,提出了时变数据集序列的变化检测数据挖掘算法。该算法可以在数据集序列中挖掘突变的时间步或者子区域,减少数据分析或可视化的工作量。具体应用于高斯序列与激光与等离子体相互作用模拟,效果良好。(4)基于信息冗余度,提出了时间序列中物理参量非线性相关性的检测算法。该算法引入振幅调节傅立叶变换算法生成替代数据,利用信息冗余度作为检验统计量进行统计检验,研究了检测单物理参量或多物理参量非线性相关性的数据挖掘算法。通过几种常见的时间序列测试,验证了该数据挖掘算法的有效性。
其他文献
所得税筹划作为企业纳税筹划的重点,其避税手法可谓花样繁多。如何充分、合理利用税法条款,进行纳税筹划,以期取得“节税”的效益,是企业财务管理人员必须面对的课题。可从以下几
中国改革开放以来,经济的高速发展不仅让国人,甚至全世界都为之惊叹。中国之所以能从一个百废待兴的社会主义国家发展成为一个各行各业都全面进入现代化的发展中大国,就是因
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
在视像概念检测中可以发现,对于同一语义概念而言,其视觉特征的潜在分布通常会随着时间发生变化。针对这种现象,本文将主要研究两个核心问题:第一,不同语义概念在不同条件下
介绍无缝钢管水淬火设备的水系统组成及布置,简述该部分在研发设计中的计算及理论依据,可为实际应用提供参考。
本论文研究了网络化协同产品开发过程管理的理论、支持技术及过程实施管理的问题。研究了现代产品协同开发过程特征,分析了过程管理建模的要求,讨论了过程管理建模的理论方法
在机械制造、建筑、医疗、军事、电子商务和地理信息等领域中,对三维模型的可视化和基于Internet的传输和处理技术的应用已经越来越普遍。三角面片作为几乎所有的图形显示硬
在能源日趋紧张的今天,充分利用天然光,追求生态和可持续发展,节约照明用电,具有十分重要的意义。建筑物利用天然光最重要的因素是天空亮度分布,因此天空亮度分布规律就成为
Web服务作为一种新的分布式计算技术,近年来在学术界和工业界引起了广泛的重视。它具有良好的互操作性,能够为不同实现标准和通信机制下的软件系统的交互和集成提供有效的支
受公共安全、金融安全以及人机交互等领域大量潜在的需求所驱动,生物特征识别已经成为模式识别和人工智能领域的一个研究热点。尤其人脸识别由于其自然、直观、非接触、安全