论文部分内容阅读
摘 要: 岩屑荧光录井是油气勘探过程中重要的工作之一,为了实现该工作的自动化,本文以模糊C均值聚类(FCM)理论为基础,选用目前运用广泛的HSI颜色系统,针对荧光录井过程中生成的岩屑荧光数字图像提出了三维空间的颜色分类方案。该方案首先将图像从RGB色彩空间转换成HSI空间,并根据人眼视觉特点调整HSI各分量取值范围,同时通过提取不重复HSI颜色空间点阵的方法,提高聚类速度和聚类效果,解决超高清图像聚类速度慢的问题。最后通过人工油性判断和自动聚类分析指明不同荧光颜色(聚类中心)所代表的油性和含油比例,通过实验证明该方法能够满足生产过程中荧光图像自动识别分析的需要。
关键词: 岩屑荧光数字图像; HSI颜色空间; FCM;颜色空间分类;聚类中心;聚类分析
0 引言
岩屑荧光录井是一种在勘探开发过程中实现对油气层鉴别的公认较好的方法,在定性解释和定量解释方面有着重要的作用。该方法基于不同的含油岩屑,比如油质、胶质和沥青质等,在紫外光的照射下能够激发出特殊的光亮,这种光亮根据含油油性的不同往往呈现出不同的颜色、饱和度和亮度,从而可帮助测定石油的组成成分。
在海上平台,传统的岩屑荧光录井主要采用显微镜分析的方法,即地质人员经过取样、洗样、烘干和制作岩屑薄片等步骤后,将岩屑样品放置于荧光显微镜下进行观察,并与“荧光颜色定量参数表”中所标颜色进行对比,从而测定相关样品所含原油的性质和各组分的比例。这些步骤只能依靠地质员手工操作完成,工作量大、采样率低,同时在无形中增加了人工干预可能造成的误差。
为了解决这一难题,通过研发岩屑自动取样清洗传送回收系统以及岩屑荧光自动扫描系统,实现了自动化的岩屑荧光数字图像采集,可以在半分钟内完成一次取样和扫描工作,很大程度上提高了样品的采集效率。在此之上,通过对采集的荧光数字图像进行实时监测,并采用适当的颜色分类方法,实现对这些荧光图像中各像素颜色及其强度属性的实时分析,确定岩屑荧光级别和计算各级别所含比例,完成岩屑荧光录井分析的自动化和定量化,从而进一步提升了岩屑荧光录井技术整体的自动化水平。
选择何种颜色分类方法是研究的关键,颜色分类属于机器视觉中自动视觉检测领域比较典型的问题之一,是根据人类视觉特性将表面色彩相同或相近的物体分为同一等级的研究过程,具有主观特性强的特点,因此必须兼顾人类视觉特性。本文通过研究岩屑表面荧光颜色的特点,并在详细分析了包括基于直方图阈值的最大熵和粒子群分割方法、基于区域分割及边缘搜索的分割方法、基于计算机智能的分割方法和基于四种统计学的分割方法后,提出了基于模糊C均值聚类的三维颜色空间分类方法。
1 颜色空间的选择
1.1 颜色空间的分类
从感知的角度可以将颜色空间分为三类:混合型颜色空间、非线性亮度/色度型颜色空间以及强度/饱和度/色度型颜色空间。混合型顾名思义是将三种基色按不同比例混合起来表示颜色,我们所熟知的RGB以及CMYK和XYZ等就属于这种类型的颜色空间。非线性亮度/色度型颜色空间可用来方便地表示黑白图像,例如L*a*b、L*u*v、YUV等。强度/饱和度/色度型颜色空间有HSI、HSL、HSV 和LCH 等。
1.2 颜色特征空间的选择
混合型颜色空间多面向硬件,比如显示器和打印机等。非线性亮度/色度型颜色空间多用于描述黑白图像。只有强度/饱和度/色度型颜色空间使用类似于人类视觉的方式表示颜色。
本文将基于色度/亮度/饱和度型颜色空间进行岩屑荧光聚类算法的研究。
1.3 颜色空间的相互转换
HSI颜色空间和RGB颜色空间是从不同的特征和应用角度提出的颜色表示方式,因而它们之间存在着转换关系。
本文采用经典几何推导法演算出的RGB-HSI转换公式:
通过上述公式可以将适于显示系统而不适合图像分割和分析的RGB颜色空间转换到适于人眼识别的HSI颜色空间。
2 彩色图像多维数据FCM颜色聚类算法
2.1 基于多维颜色分量的FCM聚类算法
目前模式识别系统中,常使用的分类识别器按照学习机制的不同可分为两类,即监督机器学习和无监督机器学习,前者较为流行的算法包括神经网络、支持向量机和KNN等,而聚类算法及相应的改进算法在无监督机器学习领域应用比较广泛。
2.1.1 基于模糊C的均值聚类算法
模糊C聚类算法是普通C均值聚类算法的改进算法,其将样本点的硬性聚类转换成柔性的模糊划分。其思想是将划分到同一类的样本之间相似度最大,而不同类之间相似度最小。
FCM聚类算法公式表述如下:
其中c为聚类数,介于2和n之间,n为样本数,m为加权指数,U为隶属度矩阵,P为聚类中心矩阵。
A是一个p*p的正定矩阵,p是数据对象j的维数。
算法的执行过程如下,通过迭代可得到聚类中心和用于描述隶属程度的隶属度矩阵:
步骤一:初始化隶属度矩阵U,U中的每个值均为[0,1]范围内的随机数,且U应为归一化后的矩阵。
步骤二:用公式2计算全部聚类中心,这里聚类中心个数事先设定为c,聚类中心用C表示,i=1,…,c。
步骤三:根据公式1计算价值函数。如果计算结果小于某个确定的阀值,或相对上次计算结果变化程度小于某个阀值,或迭代次数大于事先设定好的迭代次数,则算法执行结束。
步骤四:用公式3计算新的隶属度矩阵,然后返回步骤2。
2.1.2 自适应模糊C均值聚类算法
FCM算法要求预先设定聚类类别数,但通常该数量很难确定,无疑增加了算法的不合理性,因此在一定程度上影响了算法的实际应用。通过引入聚类结果评价方法,可以帮助系统自动确定样本分类数,以帮助得到一个合理的聚类结果。 基于欧式距离的模糊聚类的紧密性和分离性:
聚类有效性的定义:
公式12:S = sep/comp
从公式可以看出,聚类越独立,分离性越大,sep就越大;同一类中的样本越相似,紧密性越强,comp越小;所以最大的S表明一个有效的最优划分。
2.2 岩屑荧光图像数字模型分析
图1 较弱的荧光图像和较强的荧光图像
项目荧光图像的采集使用的是线阵CCD工业相机,放置岩屑样品的盛样皿的大小为10cm*10cm,与白光图像采集不同之处在于,荧光图像采集对分辨率要求相对较低,一般控制在1200dpi,这样所采集图像的像素数一般在2000万像素左右。
由于荧光图像中的颜色是通过三维坐标的颜色模型来表示的,所以参与计算的数据量通常在6000万左右,如此大的数据量无疑对硬件系统提出了非常高的要求,同时计算时间也大大增加。
为了解决计算量过大的问题,考虑采用下述三种方式对荧光图像进行处理。
1)对图像进行剪切,将大图像转换成若干个小图象。
2)降低图像分辨率,将高分辨率图像转换成低分辨率图像
3)调整颜色空间各分量的取值范围,提取三分量不完全重复的三维空间点阵
对于第一种方法而言,由于荧光图象中荧光分布本身具有不均匀性,所以剪切后的图像有些可能荧光显示较多,而有些可能完成无显示,这样不利于对荧光进行标识。而第二种方法通过降低分辨率可使参与计算的数据量大大减少,对于荧光显示较多的图像可以达到分类的目的,但是对于荧光比较微弱的图像而言,降低处理后荧光就更微弱了,这样在进行聚类处理时,这部分荧光很容易被当作噪声忽略掉,分类效果很不理想。
以图1中较弱荧光图像为例,降低分辨率处理后,图像像素从原来的61万降低到9600,通过绘制HSI三维空间点阵可以看出(如图2),像素主要集中在色调值为100,且亮度较低的区域,一些高亮度和高色调值的点会当作噪声忽略掉。
图2 HSI颜色空间点阵
第三种方法实际上是先通过调整各分量的取值范围,从而调整各分量的权重,使对视觉敏感的颜色属性更突出,比如亮度和色调,而对于视觉不是很敏感的属性,比如饱和度可以适当降低其在计算中对结果的影响。其次该方法更强调图像中颜色类别的重要性,而降低颜色类别所占比例对分类的影响。
2.3 颜色样本集的选择
通过RGB-HSI算法可将RGB颜色空间转换成HSI颜色空间,转换后的色调取值范围在[0,360],饱和度在[0,1],亮度在[0,1],系统通过调整各分量取值范围调整各分量在计算过程中的权重。参照Munsell颜色系统,在HSI颜色空间将色调H分为60个等级,亮度I分为20个等级,饱和度S分为10个等级,得到1.2万个样本,作为HSI空间的最大样本空间。
无论多大的荧光图像,经过上述处理后,参与分类的样本集都不会超过1.2万个。图1荧光图像转换后样本集大小为1009,图3为转换后的HSI颜色空间三维点阵,可以看出样本集分布密度更加均匀。
图3 转换后的HSI颜色空间点阵
3 荧光图像聚类分析
3.1 油性分析
通过对聚类结果进行分析,随着分类数c的增加,当c未到达最优时,S也会随之增大,当c达到最优而继续增大时,S会随之减小。因此取S随c增加而变成最大时的c为最佳分类数。通常情况下,c的取值会在5-10之间使S最大化,系统会计算c在2到10之间的所有的聚类结果,从而得到合理的分类数。
分类完成之后,地质人员通过经验判断并参考电阻率、自然伽玛等录井数据标识出不同荧光颜色所代表的油性。
3.2 含油比例分析
聚类完成之后,会计算出划分矩阵,将经过2.2转换后的不重复HSI三维点阵划分到不同的分类中。故可以通过下面公式计算出每一分类所占的比例。
其中X为经过本文2.2转换后的图像数据,U表示参与分类的样本集,H表示U中每一样本的数量,R为c维向量,用于存储每一个分类所占比例,a表示划分矩阵中每一分类最大样本数。
4 实验结果和结论
图4 显微镜下观测到的荧光图像
为了更好地进行对比分析,这里使用显微镜下的荧光图像(如图4)作为样本数据,图像大小为768*590,像素数为452990。对图像进行本文2.2处理后,得到的聚类样本集中有439个样本。
图5 聚类结果有效性分析
如图5所示,当聚类数目为6的时候,通过xie-beni指标进行有效性评价的数值最高,分类效果最好,并获得聚类中心如表1所示。
表1 分别用HSI和RGB表示的聚类中心
同时可获得相应的样本集划分矩阵,了解所有样本所属类别,划分矩阵示意图如图6所示。
图6 聚类效果图
通过油性识别,标示2、4、6分类颜色很暗、不含油,1分类呈黄绿色,3分类呈黄橙色,5分类呈橙褐色。1分类可认为油质、3分类为胶质、5分类为沥青质。
各分类所含比例计算如表2所示:
表2 各分类油性及比例分析
通过计算,含油面积占图像总面积的56%,其中油质含油占比为57%,胶质含油占比为15.3%,沥青质含油占比为26.6%。显微镜下光谱分析的结果为油质占61.21%,胶质占16.1%,沥青质占22.69%,占比分析结果误差均不超过5%。
5 结束语
从实验中可以看出,可以得到较好的聚类效果。但是在计算效率和算法优化方面还有改进的空间。通过算法流程可以看出,耗时主要集中大数据量计算、多次迭代以及有效性计算上,下一步将通过优化初始聚类中心和空间的选择,来缩短算法运行时间,并优化聚类效果。
参考文献:
[1]WANGJing,TANGJiLong. Alternative Fuzzy Cluster Segmentation of Remote Sensing Images Based on Adaptive Genetic Algorithm[J]. Chin.Geogra.Sc, 2009,19(1):083-088.
[2]王强、康戈文,基于HSI颜色模型的特征分类方法研究及应用[J].自动化信息 ,2010,30(3):54-56.
[3]李苏梅、韩国强、周咏梅,一种基于BP神经网络的颜色空间量化方案[J]. 广西师范大学学报,2008,26(1):0232-0235.
[4]杜建强、卢炎生,一种彩色图像快速分割方法[J]. 小型微型计算机系统,2009,30(7):1412-1416.
[5]刘丽萍、耿长喜,荧光显微图像量化表征方法研究[J]. 录井工程,2010,21(4):10-13.
作者简介:
苑舒斌(1980-),男,工程师,硕士,主要研究方向:软件开发技术和图形图像处理;符耀庆(1964-),男,高级工程师,本科,主要研究方向:软件开发技术和图形图像处理。
关键词: 岩屑荧光数字图像; HSI颜色空间; FCM;颜色空间分类;聚类中心;聚类分析
0 引言
岩屑荧光录井是一种在勘探开发过程中实现对油气层鉴别的公认较好的方法,在定性解释和定量解释方面有着重要的作用。该方法基于不同的含油岩屑,比如油质、胶质和沥青质等,在紫外光的照射下能够激发出特殊的光亮,这种光亮根据含油油性的不同往往呈现出不同的颜色、饱和度和亮度,从而可帮助测定石油的组成成分。
在海上平台,传统的岩屑荧光录井主要采用显微镜分析的方法,即地质人员经过取样、洗样、烘干和制作岩屑薄片等步骤后,将岩屑样品放置于荧光显微镜下进行观察,并与“荧光颜色定量参数表”中所标颜色进行对比,从而测定相关样品所含原油的性质和各组分的比例。这些步骤只能依靠地质员手工操作完成,工作量大、采样率低,同时在无形中增加了人工干预可能造成的误差。
为了解决这一难题,通过研发岩屑自动取样清洗传送回收系统以及岩屑荧光自动扫描系统,实现了自动化的岩屑荧光数字图像采集,可以在半分钟内完成一次取样和扫描工作,很大程度上提高了样品的采集效率。在此之上,通过对采集的荧光数字图像进行实时监测,并采用适当的颜色分类方法,实现对这些荧光图像中各像素颜色及其强度属性的实时分析,确定岩屑荧光级别和计算各级别所含比例,完成岩屑荧光录井分析的自动化和定量化,从而进一步提升了岩屑荧光录井技术整体的自动化水平。
选择何种颜色分类方法是研究的关键,颜色分类属于机器视觉中自动视觉检测领域比较典型的问题之一,是根据人类视觉特性将表面色彩相同或相近的物体分为同一等级的研究过程,具有主观特性强的特点,因此必须兼顾人类视觉特性。本文通过研究岩屑表面荧光颜色的特点,并在详细分析了包括基于直方图阈值的最大熵和粒子群分割方法、基于区域分割及边缘搜索的分割方法、基于计算机智能的分割方法和基于四种统计学的分割方法后,提出了基于模糊C均值聚类的三维颜色空间分类方法。
1 颜色空间的选择
1.1 颜色空间的分类
从感知的角度可以将颜色空间分为三类:混合型颜色空间、非线性亮度/色度型颜色空间以及强度/饱和度/色度型颜色空间。混合型顾名思义是将三种基色按不同比例混合起来表示颜色,我们所熟知的RGB以及CMYK和XYZ等就属于这种类型的颜色空间。非线性亮度/色度型颜色空间可用来方便地表示黑白图像,例如L*a*b、L*u*v、YUV等。强度/饱和度/色度型颜色空间有HSI、HSL、HSV 和LCH 等。
1.2 颜色特征空间的选择
混合型颜色空间多面向硬件,比如显示器和打印机等。非线性亮度/色度型颜色空间多用于描述黑白图像。只有强度/饱和度/色度型颜色空间使用类似于人类视觉的方式表示颜色。
本文将基于色度/亮度/饱和度型颜色空间进行岩屑荧光聚类算法的研究。
1.3 颜色空间的相互转换
HSI颜色空间和RGB颜色空间是从不同的特征和应用角度提出的颜色表示方式,因而它们之间存在着转换关系。
本文采用经典几何推导法演算出的RGB-HSI转换公式:
通过上述公式可以将适于显示系统而不适合图像分割和分析的RGB颜色空间转换到适于人眼识别的HSI颜色空间。
2 彩色图像多维数据FCM颜色聚类算法
2.1 基于多维颜色分量的FCM聚类算法
目前模式识别系统中,常使用的分类识别器按照学习机制的不同可分为两类,即监督机器学习和无监督机器学习,前者较为流行的算法包括神经网络、支持向量机和KNN等,而聚类算法及相应的改进算法在无监督机器学习领域应用比较广泛。
2.1.1 基于模糊C的均值聚类算法
模糊C聚类算法是普通C均值聚类算法的改进算法,其将样本点的硬性聚类转换成柔性的模糊划分。其思想是将划分到同一类的样本之间相似度最大,而不同类之间相似度最小。
FCM聚类算法公式表述如下:
其中c为聚类数,介于2和n之间,n为样本数,m为加权指数,U为隶属度矩阵,P为聚类中心矩阵。
A是一个p*p的正定矩阵,p是数据对象j的维数。
算法的执行过程如下,通过迭代可得到聚类中心和用于描述隶属程度的隶属度矩阵:
步骤一:初始化隶属度矩阵U,U中的每个值均为[0,1]范围内的随机数,且U应为归一化后的矩阵。
步骤二:用公式2计算全部聚类中心,这里聚类中心个数事先设定为c,聚类中心用C表示,i=1,…,c。
步骤三:根据公式1计算价值函数。如果计算结果小于某个确定的阀值,或相对上次计算结果变化程度小于某个阀值,或迭代次数大于事先设定好的迭代次数,则算法执行结束。
步骤四:用公式3计算新的隶属度矩阵,然后返回步骤2。
2.1.2 自适应模糊C均值聚类算法
FCM算法要求预先设定聚类类别数,但通常该数量很难确定,无疑增加了算法的不合理性,因此在一定程度上影响了算法的实际应用。通过引入聚类结果评价方法,可以帮助系统自动确定样本分类数,以帮助得到一个合理的聚类结果。 基于欧式距离的模糊聚类的紧密性和分离性:
聚类有效性的定义:
公式12:S = sep/comp
从公式可以看出,聚类越独立,分离性越大,sep就越大;同一类中的样本越相似,紧密性越强,comp越小;所以最大的S表明一个有效的最优划分。
2.2 岩屑荧光图像数字模型分析
图1 较弱的荧光图像和较强的荧光图像
项目荧光图像的采集使用的是线阵CCD工业相机,放置岩屑样品的盛样皿的大小为10cm*10cm,与白光图像采集不同之处在于,荧光图像采集对分辨率要求相对较低,一般控制在1200dpi,这样所采集图像的像素数一般在2000万像素左右。
由于荧光图像中的颜色是通过三维坐标的颜色模型来表示的,所以参与计算的数据量通常在6000万左右,如此大的数据量无疑对硬件系统提出了非常高的要求,同时计算时间也大大增加。
为了解决计算量过大的问题,考虑采用下述三种方式对荧光图像进行处理。
1)对图像进行剪切,将大图像转换成若干个小图象。
2)降低图像分辨率,将高分辨率图像转换成低分辨率图像
3)调整颜色空间各分量的取值范围,提取三分量不完全重复的三维空间点阵
对于第一种方法而言,由于荧光图象中荧光分布本身具有不均匀性,所以剪切后的图像有些可能荧光显示较多,而有些可能完成无显示,这样不利于对荧光进行标识。而第二种方法通过降低分辨率可使参与计算的数据量大大减少,对于荧光显示较多的图像可以达到分类的目的,但是对于荧光比较微弱的图像而言,降低处理后荧光就更微弱了,这样在进行聚类处理时,这部分荧光很容易被当作噪声忽略掉,分类效果很不理想。
以图1中较弱荧光图像为例,降低分辨率处理后,图像像素从原来的61万降低到9600,通过绘制HSI三维空间点阵可以看出(如图2),像素主要集中在色调值为100,且亮度较低的区域,一些高亮度和高色调值的点会当作噪声忽略掉。
图2 HSI颜色空间点阵
第三种方法实际上是先通过调整各分量的取值范围,从而调整各分量的权重,使对视觉敏感的颜色属性更突出,比如亮度和色调,而对于视觉不是很敏感的属性,比如饱和度可以适当降低其在计算中对结果的影响。其次该方法更强调图像中颜色类别的重要性,而降低颜色类别所占比例对分类的影响。
2.3 颜色样本集的选择
通过RGB-HSI算法可将RGB颜色空间转换成HSI颜色空间,转换后的色调取值范围在[0,360],饱和度在[0,1],亮度在[0,1],系统通过调整各分量取值范围调整各分量在计算过程中的权重。参照Munsell颜色系统,在HSI颜色空间将色调H分为60个等级,亮度I分为20个等级,饱和度S分为10个等级,得到1.2万个样本,作为HSI空间的最大样本空间。
无论多大的荧光图像,经过上述处理后,参与分类的样本集都不会超过1.2万个。图1荧光图像转换后样本集大小为1009,图3为转换后的HSI颜色空间三维点阵,可以看出样本集分布密度更加均匀。
图3 转换后的HSI颜色空间点阵
3 荧光图像聚类分析
3.1 油性分析
通过对聚类结果进行分析,随着分类数c的增加,当c未到达最优时,S也会随之增大,当c达到最优而继续增大时,S会随之减小。因此取S随c增加而变成最大时的c为最佳分类数。通常情况下,c的取值会在5-10之间使S最大化,系统会计算c在2到10之间的所有的聚类结果,从而得到合理的分类数。
分类完成之后,地质人员通过经验判断并参考电阻率、自然伽玛等录井数据标识出不同荧光颜色所代表的油性。
3.2 含油比例分析
聚类完成之后,会计算出划分矩阵,将经过2.2转换后的不重复HSI三维点阵划分到不同的分类中。故可以通过下面公式计算出每一分类所占的比例。
其中X为经过本文2.2转换后的图像数据,U表示参与分类的样本集,H表示U中每一样本的数量,R为c维向量,用于存储每一个分类所占比例,a表示划分矩阵中每一分类最大样本数。
4 实验结果和结论
图4 显微镜下观测到的荧光图像
为了更好地进行对比分析,这里使用显微镜下的荧光图像(如图4)作为样本数据,图像大小为768*590,像素数为452990。对图像进行本文2.2处理后,得到的聚类样本集中有439个样本。
图5 聚类结果有效性分析
如图5所示,当聚类数目为6的时候,通过xie-beni指标进行有效性评价的数值最高,分类效果最好,并获得聚类中心如表1所示。
表1 分别用HSI和RGB表示的聚类中心
同时可获得相应的样本集划分矩阵,了解所有样本所属类别,划分矩阵示意图如图6所示。
图6 聚类效果图
通过油性识别,标示2、4、6分类颜色很暗、不含油,1分类呈黄绿色,3分类呈黄橙色,5分类呈橙褐色。1分类可认为油质、3分类为胶质、5分类为沥青质。
各分类所含比例计算如表2所示:
表2 各分类油性及比例分析
通过计算,含油面积占图像总面积的56%,其中油质含油占比为57%,胶质含油占比为15.3%,沥青质含油占比为26.6%。显微镜下光谱分析的结果为油质占61.21%,胶质占16.1%,沥青质占22.69%,占比分析结果误差均不超过5%。
5 结束语
从实验中可以看出,可以得到较好的聚类效果。但是在计算效率和算法优化方面还有改进的空间。通过算法流程可以看出,耗时主要集中大数据量计算、多次迭代以及有效性计算上,下一步将通过优化初始聚类中心和空间的选择,来缩短算法运行时间,并优化聚类效果。
参考文献:
[1]WANGJing,TANGJiLong. Alternative Fuzzy Cluster Segmentation of Remote Sensing Images Based on Adaptive Genetic Algorithm[J]. Chin.Geogra.Sc, 2009,19(1):083-088.
[2]王强、康戈文,基于HSI颜色模型的特征分类方法研究及应用[J].自动化信息 ,2010,30(3):54-56.
[3]李苏梅、韩国强、周咏梅,一种基于BP神经网络的颜色空间量化方案[J]. 广西师范大学学报,2008,26(1):0232-0235.
[4]杜建强、卢炎生,一种彩色图像快速分割方法[J]. 小型微型计算机系统,2009,30(7):1412-1416.
[5]刘丽萍、耿长喜,荧光显微图像量化表征方法研究[J]. 录井工程,2010,21(4):10-13.
作者简介:
苑舒斌(1980-),男,工程师,硕士,主要研究方向:软件开发技术和图形图像处理;符耀庆(1964-),男,高级工程师,本科,主要研究方向:软件开发技术和图形图像处理。