论文部分内容阅读
我国的地学工作进入数字化时代,地学信息库集成了地质、物探、化探、遥感信息等多学科的地学数据,信息资源丰富。但地学数据具有时间跨度大,空间范围广,数据类型多,数据不确定性等特点,一些常规的数据挖掘技术无法满足地学数据的特征。在智能计算领域中的演化计算,是模拟自然界生物演化过程产生的随机优化策略与技术,它具有稳健性、通用性和自组织、自适应、自学习等智能特征及多样性解决问题的能力,适合应用在很多复杂的非线性问题上。在地学数据挖掘中引入演化计算家族中的基因表达式编程算法,能加强地学数据挖掘技术,从丰富的地学数据中获取蕴涵的知识信息,指导找矿工作。
详细查阅演化计算的国内外文献,对其中的遗传算法、遗传程序设计算法、基因表达式编程算法进行研究。基因表达式编程算法结合了遗传算法、遗传程序设计算法的优点,即能表达复杂问题,又能实现有效的遗传操作。项目研究中,选择基因表达式编程算法(gene expression programming 简称 GEP),开发了此算法程序,并将其应用到地学数据挖掘中。
在基因表达式编程程序开发中,依据程序执行效率,在 Candida Ferreira 教授提出的基因表达式编程算法基础上,对基因表达式编程的编码方式进行改进。Candida Ferreira 教授的算法中,基因编码分为头、尾两部分。头部字符既可以是运算符也可以是终结符,尾部只能是终结符。在开发的程序中,把基因编码分为三部分:头、身和尾。头部只能是运算符,身部既可以是运算符也可以是终结符,尾部只能是终结符,改进的基因编码结构更容易实现遗传算子的操作,提高算法的计算效率。
基于 VC++程序设计语言和面向对象技术,开发了可视化基因表达式编程程序,为了提高程序的通用性,设计了初始基因创建(IndividualClass)和遗传算子操作(EAClass)两个公共类。IndividualClass 功能为:根据用户定义的初始种群n和函数集,随机产生n初始基因,并按演化策略产生基因组(同源基因),用指定的适应值函数计算每个基因组的适应值,根据选择策略选择产生下一代的基因组。EAClass类功能为:实现对被选择的基因组进行遗传操作,主要的遗传操作有:复制、变异、插串、根插串、基因插串、单点重组、双点重组、基因重组。为了方便用户根据问题设置种群规模,演化代数,选择策略及选择函数集,适应度函数等,程序设计了交互式的参数设置界面。基因表达式编程程序的自主开发,为基因表达式编程的应用研究提供条件。经应用,程序操作简便,性能良好。
由于基因表达式编程算法的计算结果是随机的,选择“好”计算结果要根据实际问题进行反复实验。为了掌握适应度函数和演化代数对计算结果的影响,用复杂函数数据和实际测量数据对不同的适应度函数和不同的演化代数进行了系统的测试计算,通过计算结果的统计值来评价影响程度。
应用基因表达式编程算法,对东天山石英滩矿区区域地球化学数据进行元素关系和元素分布评价的应用研究。在元素关系函数的研究中,利用样品全分析的优势,进行了Au与其它所有元素的GEP计算。计算表明,没有相关性的元素之间进行GEP计算没有意义,发现的函数变化没有规律或近似一条直线。而有相关性的元素,其发现的函数基本能反映元素的相关性质和变化趋势。论文中仅列出 GEP 发现的 Au-As 与 Au-Be 的关系函数。Au、As、Be、Mn 东两向分布函数研究表明,元素在东西向(大体垂直矿体走向)分布有一定的规律性。GEP 发现的函数是指数函数和三角函数的复合,函数曲线光滑,变化平稳。能反映元素值的总体变化。石英滩矿区Au的二维分布函数研究说明,GEP 发现的函数能表达元素的区域变化趋势,对今后研究元素趋势变化的立体图有重要作用。应用基因表达式编程算法,对胶东齐家沟地区岩石地球化学数据评价进行应用研究。在Au与Ag As sb 关系的 GEP 计算中,发现函数曲线基本能反映元素间实际变化关系,说明 GEP 算法能够挖掘出岩石地球化学数据之间的关系函数。Au-Ag、 Au-As、 Au-Sb的GEP发现函数基本能反映训练样品元素之间的变化规律,Au-Ag、Au-As 是正相关的非线性函数关系,Au-Sb 为复杂的指数函数关系,最重要的是都能反映高异常值。说明GEP在地球化学元素评价中是有效的,可进行更深入研究。在平行和垂直控矿构造方向,对 Au进行分布函数研究,由于岩石地球化学数据比较离散,矿化点或矿点上含量数据值与一般岩石上的含量数据相差很大,并且分布范围小,数据的变化是突变的。元素分布难用函数表达,则GEP发现的函数与实际数据分布相差较大,不能完全表达元素的分布。
以上GEP计算元素分布函数的研究说明,GEP 在研究元素的空间分布上是有一定作用的,特别是对区域分布的研究,能代表变化趋势。对数据的插值、异常分解等评价有一定的效果。但当元素分布没有一定的变化趋势,数据急剧变化或没有变化规律时,基因表达式编程算法在分布上应用没有效果。
遥感数据处理方法、模型与预测技术的不断出现为信息和知识的挖掘提供了不可或缺的工具。目前,已经有很多科学家从不同角度、以不同的途径探索新的数学算法,并且希望这些算法具有自动理解、识别以及自学习和自适应能力。GEP 是遥感数据处理的新方法。
根据东天山康古尔地区的ETM影像数据,把基因表达式编程应用到遥感图像数据处理中,进行岩性分类和蚀变信息提取,两种应用的基因表达式都包括信息量大的ETM5 和ETM7波段。研究表明,通过基因表达式编程计算,能综合各波段数据。基因表达式编程在遥感图像的模式识别,信息提取中,有信息加强的作用,能提高图像纹理结构的清晰度。