论文部分内容阅读
在对大规模科学数据进行处理时,往往会因为其具有规模大、特征复杂的特点,使得在理解、分析这些科学数据的时候,获取知识变得十分困难,因此针对大规模的科学数据进行知识挖掘势在必行。本项目主要研究如何从大规模的科学数据中提取出模式。本文研究的数据为通过lared-p程序模拟后得到的模拟数据,该数据反映了激光在等离子体传播过程中的能量变化情况。由于该研究建立在物理背景基础上,再加上数据本身的新颖性,给研究带来了极大的困难。经过广泛阅读文献,查阅资料最终确定了提取圈特征为主要手段的研究思路。本文针对的数据是分时间步分布的,每个时间步在横向切片上呈现环状分布,不同的环代表了不同的能量值。那么也就有了将环带作为表征数据的特征的想法,圈特征提取算法在这种情况下应运而生。圈特征提取算法是将各个切片包含的环带数量作为对应切片的特征,最终将整个时间步包含的所有切片的特征组合在一起就成了圈特征。圈特征提取算法共包括了数据预处理、边缘提取、边缘细化、封闭曲线识别这四个部分。每一个部分都包含了自己独立的技术,但只有组合在一起才构成本文所提出的圈特征提取算法。通过圈特征提取算法的提出,为分析从大规模数值模拟数据中提取有价值的信息提供了有效的新方法。数据预处理部分作为整个算法的第一部分,起到去除噪声的功能,为进一步的数据处理奠定了基础。边界提取部分为将环带边界信息从切片中提取出来,这是整个算法很关键的一步。接下来在边缘细化算法部分本文采用了一种改进的串行化的边缘骨架提取算法,通过这种改进的细化算法能够解决长竖的识别问题,很好的对项目数据进行细化处理。最后在封闭曲线识别阶段采用了一种改进的自适应Hough变换对圆进行识别,该自适应Hough变换不但极大降低了Hough变换在圆识别中的时间和空间的消耗,同时也通过自适应技术极大的降低了噪声点对圆识别过程的影响,提高了识别精度,取得了很好的识别效果。