论文部分内容阅读
[摘 要]胜利油田勘探领域积累了较为丰富的勘探生产管理经验,这为提高生产管理水平打下了坚实的基础。但如何既能继承传统的正确经验,又能结合油田实际情况和现代信息科学的最新成果,推出适应当前管理决策模式的决策支持系统已变得更为迫切。本论文主要对探井随钻分析专家决策技术进行研究,将人们的经验和决策过程用程序描述出来,使决策过程更加简单,准确度变得更高。
[关键词]随钻分析 聚类 决策树
中图分类号:TP311.13 文献标识码:A 文章编号:1009-914X(2017)01-0084-01
1 研究背景
油气勘探是高风险、高投入的技术密集型、资金密集型产业,先进技术含量越高,则勘探效果也越好。因此從各个环节运用信息技术提升业务水平,是国内外共同关注的一个重要课题,尤其在战略决策环节,勘探业务决策水平高低是决定投资有效性的最直接因素。目前胜利油田勘探领域积累了较为丰富的勘探生产管理经验,但如何既能继承传统的正确经验,又能结合油田实际情况和现代信息科学的最新成果,推出适应当前管理决策模式的决策支持系统已变得更为迫切。
通过随钻分析专家系统的建立,一方面可以继承长期业务决策过程中传统正确经验、教训;通过知识库的建立,对其进行有效保存和归纳总结。另一方面,可以通过模型库、方法库的建立,对现有数据和知识进行高层次利用。
该系统的建设,,将是对未来勘探管理和决策模式的新探索,也是顺应当前勘探形势,为更有效的决策提供理论和方法的支持,从而促进勘探决策的有效性,有效降低决策风险的有效手段,对中石化乃至国内整个石油工业都具有积极的重要意义。
2 决策过程的关键算法—ID3决策树建模算法
目前已形成多种决策树分类算法。我们选用经典的,比较通用的ID3算法。ID3算法的实现主要包括以下几个过程:
A.样本数据矩阵离散化
B.计算各条件属性的信息增益
有关条件属性选择的说明:在决策树生成方法中,通常使用信息增益来帮助确定生成每个结点时所应采用的属性。信息增益:属性选择度量或分裂的优良性度量,选择具有最高信息增益的属性作为当前节点的测试属性,该属性使得对结果划分中,所产生的各样本子集中“不同类别混合程度”降为最低,因此采用这样一种信息论方法将帮助有效减少对象分类所需要的划分次数,从而确保找到一棵相对简单的树。
C.按信息增益给条件属性排序,确定分支节点的候选属性列表。
D.划分样本,分支建树。
该过程比较复杂,是个循环递归的过程。建树的终止条件有3种情况。如下:
1.给定节点的所有样本属于同一类,用该类对应的决策属性标记作为叶节点。2.没有剩余属性可以用来进一步划分样本,即候选的条件属性列表为空,则用最普通的类标记作为叶节点。3.由节点分支划分的子样本为空,则用最普通的类标记作为叶节点。
该子过程详细描述如下:
建树过程:由给定的数据产生一棵判定树
输入:训练样本Samples,由离散值属性表示;候选属性集attribute_list
输出:一棵判定树Generate_Decision_Tree(Samples, attribute_list)
创建节点N
IF Samples都在同一类C, THEN
返回N作为叶节点,以类C标记
IF attribute_list为空, THEN
返回N作为叶节点,用Samples中最普通的类标记
选择attribute_list中具有最高信息增益的属性test_attribute
标记节点N为test_attribute
For each test_attribute中的已知值ai
由节点N长出一个条件为test_attribute= ai 的分支
设si为Samples样本中test_attribute= ai 的集合
IF si为空, THEN
加上一个树叶,用Samples中最普通的类标记
ELSE加上一个由Generate Decision Tree返回的节点
注:决策树算法与其它分类算法,如统计方法、神经网络等比较起来有如下优点:产生的分类规则易于理解,准确率较高。缺点是在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。
本项目采用ID3的原因是,根据随钻分析业务数据的特点:井数目在两千口左右,且属性的值分数值型和字符型两种。没有属性值是以连续属性形式存储。
3 研究成果与预测
在生产管理决策的讨论中,约80%的讨论时间都是在这一类决策讨论中,而最大的问题是大量数据的分析方面,如果实现自动化或半智能化的决策辅助,将极大提高决策精确度和效率,使决策周期得以缩短。因此这一系统的开发受到勘探项目部及二级生产部门的广泛关注。
另外,通过在此决策点上开展的地层产油和产能评价,将带动在地层钻进过程中相关知识模式的研究和整理,为地质录井项目调整、测井、试油等方面提供基础技术问题的解决,为下一步在探井随钻大多数领域的决策支持提供强大技术支持。
针对当前勘探形势要求,在前期的研究实践中探索完善勘探决策专家系统的建设和管理模式,我们明确了建立一个专家知识库的基本技术路线,在今后的知识库及专家决策支持的建设工作中,这些在大量探索和实践建立起来的方法论,将对相关技术的应用,起到重要的指导性作用。
4 结论
建立知识库的过程严重依赖于对于决策的分析工作,不同的决策业务特点,适用于不同的建设思路。通过分析,在了解决策过程的基础上,确定不同的建设方法与规则,对于决策模式相对规范的决策点,可使用上述决策方法建立在案例库之上的专家知识系统。
决策的流程划分,决策方法整理定义及选择,在海量数据应用的基础上,对该业务提供了全面的决策支持。同时,在该项目中提出决策思维模式理论,提出基于知识本体的决策点细化和决策方法分类(三类)及其应用规则理论。实现对传统逻辑方法、人工智能方法和专家参与方法的综合应用。最后,根据以上研究成果,总结整理勘探决策领域专家知识库建立的模式,明确建设方法、步骤和原则,为下一步相关勘探研究、决策领域的知识库建设提供从理论与实践方法的指导。
参考文献
[1] C#入门宝典 Karli Watson,Marco Bellinaso等著,清华大学出版社
[2] 数据挖掘概念与设计,Micheline Kamber(加) Jiawei Han 著,机械工业出版社
[关键词]随钻分析 聚类 决策树
中图分类号:TP311.13 文献标识码:A 文章编号:1009-914X(2017)01-0084-01
1 研究背景
油气勘探是高风险、高投入的技术密集型、资金密集型产业,先进技术含量越高,则勘探效果也越好。因此從各个环节运用信息技术提升业务水平,是国内外共同关注的一个重要课题,尤其在战略决策环节,勘探业务决策水平高低是决定投资有效性的最直接因素。目前胜利油田勘探领域积累了较为丰富的勘探生产管理经验,但如何既能继承传统的正确经验,又能结合油田实际情况和现代信息科学的最新成果,推出适应当前管理决策模式的决策支持系统已变得更为迫切。
通过随钻分析专家系统的建立,一方面可以继承长期业务决策过程中传统正确经验、教训;通过知识库的建立,对其进行有效保存和归纳总结。另一方面,可以通过模型库、方法库的建立,对现有数据和知识进行高层次利用。
该系统的建设,,将是对未来勘探管理和决策模式的新探索,也是顺应当前勘探形势,为更有效的决策提供理论和方法的支持,从而促进勘探决策的有效性,有效降低决策风险的有效手段,对中石化乃至国内整个石油工业都具有积极的重要意义。
2 决策过程的关键算法—ID3决策树建模算法
目前已形成多种决策树分类算法。我们选用经典的,比较通用的ID3算法。ID3算法的实现主要包括以下几个过程:
A.样本数据矩阵离散化
B.计算各条件属性的信息增益
有关条件属性选择的说明:在决策树生成方法中,通常使用信息增益来帮助确定生成每个结点时所应采用的属性。信息增益:属性选择度量或分裂的优良性度量,选择具有最高信息增益的属性作为当前节点的测试属性,该属性使得对结果划分中,所产生的各样本子集中“不同类别混合程度”降为最低,因此采用这样一种信息论方法将帮助有效减少对象分类所需要的划分次数,从而确保找到一棵相对简单的树。
C.按信息增益给条件属性排序,确定分支节点的候选属性列表。
D.划分样本,分支建树。
该过程比较复杂,是个循环递归的过程。建树的终止条件有3种情况。如下:
1.给定节点的所有样本属于同一类,用该类对应的决策属性标记作为叶节点。2.没有剩余属性可以用来进一步划分样本,即候选的条件属性列表为空,则用最普通的类标记作为叶节点。3.由节点分支划分的子样本为空,则用最普通的类标记作为叶节点。
该子过程详细描述如下:
建树过程:由给定的数据产生一棵判定树
输入:训练样本Samples,由离散值属性表示;候选属性集attribute_list
输出:一棵判定树Generate_Decision_Tree(Samples, attribute_list)
创建节点N
IF Samples都在同一类C, THEN
返回N作为叶节点,以类C标记
IF attribute_list为空, THEN
返回N作为叶节点,用Samples中最普通的类标记
选择attribute_list中具有最高信息增益的属性test_attribute
标记节点N为test_attribute
For each test_attribute中的已知值ai
由节点N长出一个条件为test_attribute= ai 的分支
设si为Samples样本中test_attribute= ai 的集合
IF si为空, THEN
加上一个树叶,用Samples中最普通的类标记
ELSE加上一个由Generate Decision Tree返回的节点
注:决策树算法与其它分类算法,如统计方法、神经网络等比较起来有如下优点:产生的分类规则易于理解,准确率较高。缺点是在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。
本项目采用ID3的原因是,根据随钻分析业务数据的特点:井数目在两千口左右,且属性的值分数值型和字符型两种。没有属性值是以连续属性形式存储。
3 研究成果与预测
在生产管理决策的讨论中,约80%的讨论时间都是在这一类决策讨论中,而最大的问题是大量数据的分析方面,如果实现自动化或半智能化的决策辅助,将极大提高决策精确度和效率,使决策周期得以缩短。因此这一系统的开发受到勘探项目部及二级生产部门的广泛关注。
另外,通过在此决策点上开展的地层产油和产能评价,将带动在地层钻进过程中相关知识模式的研究和整理,为地质录井项目调整、测井、试油等方面提供基础技术问题的解决,为下一步在探井随钻大多数领域的决策支持提供强大技术支持。
针对当前勘探形势要求,在前期的研究实践中探索完善勘探决策专家系统的建设和管理模式,我们明确了建立一个专家知识库的基本技术路线,在今后的知识库及专家决策支持的建设工作中,这些在大量探索和实践建立起来的方法论,将对相关技术的应用,起到重要的指导性作用。
4 结论
建立知识库的过程严重依赖于对于决策的分析工作,不同的决策业务特点,适用于不同的建设思路。通过分析,在了解决策过程的基础上,确定不同的建设方法与规则,对于决策模式相对规范的决策点,可使用上述决策方法建立在案例库之上的专家知识系统。
决策的流程划分,决策方法整理定义及选择,在海量数据应用的基础上,对该业务提供了全面的决策支持。同时,在该项目中提出决策思维模式理论,提出基于知识本体的决策点细化和决策方法分类(三类)及其应用规则理论。实现对传统逻辑方法、人工智能方法和专家参与方法的综合应用。最后,根据以上研究成果,总结整理勘探决策领域专家知识库建立的模式,明确建设方法、步骤和原则,为下一步相关勘探研究、决策领域的知识库建设提供从理论与实践方法的指导。
参考文献
[1] C#入门宝典 Karli Watson,Marco Bellinaso等著,清华大学出版社
[2] 数据挖掘概念与设计,Micheline Kamber(加) Jiawei Han 著,机械工业出版社