科学计算时变数据集的数据挖掘算法研究

来源 :中国工程物理研究院 | 被引量 : 1次 | 上传用户：CBHHOLY

【摘要】

：

在数十万亿次以上规模的高性能计算机上,高性能科学计算的数值模拟可能输出大规模时变数据集。这些数据集由数据子集序列构成,数据总量可能达到十亿字节(GB)至万亿字节(TB),

【作者】

：

吴国清

【出处】

：

中国工程物理研究院

【发表日期】

：

2009年01期

【关键词】

：

科学计算数据挖掘信息论

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在数十万亿次以上规模的高性能计算机上,高性能科学计算的数值模拟可能输出大规模时变数据集。这些数据集由数据子集序列构成,数据总量可能达到十亿字节(GB)至万亿字节(TB),每个数据子集表示物理问题在某个时刻的数值离散解。面对如此大规模的时变数据集,如何快速地开展物理分析,去伪存真,将数据转化为知识,进而发现新的物理现象、揭示新的物理规律、探索新的物理机制,是科学计算研究的重要一环。在传统可视化分析的基础上,为了提高物理分析的效率,可以采用数据挖掘算法。这些算法基于已知的物理知识来标识重要的物理时刻和局部兴趣区域,发现物理量间的相关性,可以成为物理分析的关键支撑技术。但是,现有的商业数据挖掘算法均难以适应,因为它们通常针对各种属性的关联规则,不能适应于数值型数据。因此,有必要开展系统深入的科学计算时变数据集的数据挖掘算法研究。对科学计算时变数据集而言,数据挖掘至少可以实现三个方面的功能。第一,比较任意两个相邻时刻的数据子集的相似度;第二,标定可能蕴含丰富知识的局部计算区域和时间步;第三,判断任意两个物理量之间的相关程度。这三个方面的研究对物理分析有重要意义,它可以在大规模科学计算时变数据集中,迅速挑出蕴含重要物理特征的时刻或者子区域,发现物理量之间的线性或非线性相关性,可以提高数据分析的速度与效率,降低分析的难度。信息熵理论是一门利用数理统计方法研究信息度量的科学。它不依赖于数据的维数、空间位置、单位等信息,能对数据的内在特征进行定量表征,可以用于描述科学计算时变数据集中所蕴含的信息,而这些正是找出蕴含潜在有用信息的时刻或子区域所需要的。因此,信息熵理论可以作为数据挖掘的基础。本课题基于信息熵理论,针对科学计算时变数据集物理分析对数据挖掘提出的三个方面的需求,紧密围绕时变数据集序列约减、变化检测和物理量非线性相关性的检测算法三个方面开展研究,取得了如下创新的研究成果:(1)针对科学计算时变数据集,分析了信息度量应用于数据挖掘的可行性,并提出了科学计算时变数据集的非均匀直方图构建算法。该算法通过迭代得到科学数据集的概率分布,具有较好的自适应性。(2)提出了时变数据集序列的子集约减数据挖掘算法。该算法采用关联信息测度度量算法来度量数据子集间的相关性,仅存储相关程度低的数据子集。这些子集已经蕴含了时变数据集序列的重要物理特征。于是,可以大幅降低数据集的存储空间,提高物理分析的效率。具体应用于激光与等离子体相互作用模拟,获得了满意的数据挖掘结果。(3)基于交互信息距离,提出了时变数据集序列的变化检测数据挖掘算法。该算法可以在数据集序列中挖掘突变的时间步或者子区域,减少数据分析或可视化的工作量。具体应用于高斯序列与激光与等离子体相互作用模拟,效果良好。(4)基于信息冗余度,提出了时间序列中物理参量非线性相关性的检测算法。该算法引入振幅调节傅立叶变换算法生成替代数据,利用信息冗余度作为检验统计量进行统计检验,研究了检测单物理参量或多物理参量非线性相关性的数据挖掘算法。通过几种常见的时间序列测试,验证了该数据挖掘算法的有效性。

其他文献

做好企业所得税筹划的几点思路

所得税筹划作为企业纳税筹划的重点，其避税手法可谓花样繁多。如何充分、合理利用税法条款，进行纳税筹划，以期取得“节税”的效益，是企业财务管理人员必须面对的课题。可从以下几

期刊

所得税筹划避税

综议中国经济学家对经济发展的推动

中国改革开放以来,经济的高速发展不仅让国人,甚至全世界都为之惊叹。中国之所以能从一个百废待兴的社会主义国家发展成为一个各行各业都全面进入现代化的发展中大国,就是因

期刊

经济学家中国经济经济发展经济运行机制改革开放发展中大国多种所有制国家发展

大数据在高校档案信息管理中的应用研究

回回产卜爹仇贱回——回日E回。”。回祖一回“。回干肉果幻中 N_。NH lP7-ewwe--一”＄ MN。W;- __._——————》砧叫]们羽制作:陈恬’＃陈川个美食 Back to yield

期刊

大数据高校档案信息管理应用策略

视像概念检测中在线学习算法研究

在视像概念检测中可以发现,对于同一语义概念而言,其视觉特征的潜在分布通常会随着时间发生变化。针对这种现象,本文将主要研究两个核心问题:第一,不同语义概念在不同条件下

学位

在线学习基于内容的视像检索有限混合模型多时间粒度TREC视像检索评测

无缝钢管水淬火设备的水系统设计及应用

介绍无缝钢管水淬火设备的水系统组成及布置,简述该部分在研发设计中的计算及理论依据,可为实际应用提供参考。

期刊

无缝钢管水淬火设备水系统管路布置

基于网络的产品协同开发过程管理关键技术的研究

本论文研究了网络化协同产品开发过程管理的理论、支持技术及过程实施管理的问题。研究了现代产品协同开发过程特征,分析了过程管理建模的要求,讨论了过程管理建模的理论方法

学位

协同设计过程管理过程分解分布式工作流任务管理

基于全局轮廓形状特征保持的机械CAD网格模型简化

在机械制造、建筑、医疗、军事、电子商务和地理信息等领域中,对三维模型的可视化和基于Internet的传输和处理技术的应用已经越来越普遍。三角面片作为几乎所有的图形显示硬

学位

CAD模型网格简化特征提取全局形状特征保持多边形逼近

用信息法研究天空亮度分布

在能源日趋紧张的今天,充分利用天然光,追求生态和可持续发展,节约照明用电,具有十分重要的意义。建筑物利用天然光最重要的因素是天空亮度分布,因此天空亮度分布规律就成为

学位

天空亮度分布信息法蚁群算法天空分类天空亮度测量

Web服务驱动的业务流程的容错性研究

Web服务作为一种新的分布式计算技术,近年来在学术界和工业界引起了广泛的重视。它具有良好的互操作性,能够为不同实现标准和通信机制下的软件系统的交互和集成提供有效的支

学位

Web服务服务组合业务流程容错异常处理事务补偿服务选择QoS

光照变化条件下的人脸特征抽取算法研究

受公共安全、金融安全以及人机交互等领域大量潜在的需求所驱动,生物特征识别已经成为模式识别和人工智能领域的一个研究热点。尤其人脸识别由于其自然、直观、非接触、安全

学位

光照子空间鉴别力量分析流形学习测地线距离距离保持投影鉴别局部排列

科学计算时变数据集的数据挖掘算法研究

其他学术论文