石油数据标准化
作者:互联网
和数据管理模型工作一样,标准化也是数据管理工作中必须要做的一件事情。但纵观国内石油标准化工作,可以用 “一地鸡毛”来形容。这么说可能有点武断,按道理讲,标准化工作起到的核心作用是为信息共享提供基础,但是从这么多年的标准化工作来看,标准化并没有起到其应有的为共享数据提供支持的作用,有时甚至成为了阻碍信息化共享的帮凶。
1 标准化本质
“标准是由一个公认的机构制定和批准的文件。它对活动或活动的结果规定了规则、导则或特殊值,供共同和反复使用,以实现在预定领域内最佳秩序的效果。”所以从本质上看,标准是某一个业务领域的活动及活动结果的规范,其目的是为了获得最佳秩序的效果。
石油数据标准是指对石油数据研究、制定和推广应用统一的数据分类分级、记录格式及转换、编码等技术标准。其目的是共享和反复使用,同时是为了在石油数据管理工作中实现最佳的数据共享应用效果。所以越是主管部门级别高的标准就越是要体现标准的本质作用,否则造成的危害就越大。
2 标准的标准
任何标准的制定都是一件非常严肃的事情,由于数据标准要能够反映石油勘探开发业务的本质,要对勘探开发业务及产生的数据过程有足够的抽象,这样得到的数据标准才可能实现共用和反复使用。从这个意义上讲,设计标准是需要一套理论基础及方法体系的,我把它称为“制定标准的标准”。很多时候,在和大家讨论标准好坏及问题时,我首先会问,你制定标准的标准是什么,如果一个标准的产生没有一套标准的分析方法及理论体系,那么这个标准肯定有问题。
石油数据标准的设计应该是对石油勘探开发业务的归纳和抽象,对石油数据产生、描述、管理、应用过程的分析抽象,能够从本质上反映石油勘探开发业务过程及数据基本特征,同时它还要能够反映石油勘探开发数据之间的内在专业逻辑关系。设计这样的标准体系就必须从勘探开发业务出发,建立一个完善的设计方法体系。
遗憾的是我们大部分花费了很大力气设计出来的标准由于没有“标准的标准”的支持,大都是根据设计人员的局部认识构建的标准,不能反映石油数据本质,没有什么生命力,最终都成为昙花一现。看一看近20多年由石油行业或者石油公司发布的各种石油勘探开发数据标准有多少在实际工作中使用效果就能够看出这个问题的严重性。
3 标准化内容
数据的标准化内容一定是依据数据的各项要素展开的,因此石油勘探开发数据标准要从数据要素、数据关系、数据源头定义等几个方面去综合考虑。
3.1 数据目标对象标准化
石油勘探开发数据涉及到很多的目标对象,这些目标对象大家日常都在使用,并且在不同的应用场景中,对同样的目标或者相似的目标使用方法、叫法都不一样。由于目标对象是数据的依附对象,是最核心的要素,其标准化对后续数据的记录管理等影响很大。目标对象的标准化包括目标对象的定义、专业含义确定、分类、相互之间的关系定义等内容。
实际应用中通常用主数据模型或者主数据管理来描述和实现数据的目标对象管理工作。
3.2 数据属性维度标准化
每一个目标对象都有多个维度的属性,在“数据的分类方式”这篇文章里说过我们所有的勘探开发数据属性维度都是在数据产生之前被设计出来的,因此目标对象的数据属性维度是预先设计好的。我们平时所接触的绝大部分数据都是这些属性数据,对属性维度及内容的定义是数据标准的主要工作量。数据维度的分析基本上可以借鉴POSC的对象+活动+属性维度的分析方法,这也符合所有的数据都是在业务活动中产生和应用的这一基本原则。
属性维度要覆盖所有的石油业务就要从业务出发,建立一套标准的业务描述模型。
3.3 业务描述标准化
数据的业务描述内容很多,业务活动、业务过程是业务描述的主要内容,同时数据的专业分类及专业应用,数据的应用范围等都是业务描述的内容。
在业务描述工作中,一般工程类业务比较好描述,其工作的内容、产生的数据、应用的数据等都是比较明确的,无论采用那种方式,都可以很好地梳理和描述。对于研究工作和管理工作,由于各个单位工作组织方式不一样,管理模式存在差异,这两类业务的描述比较困难,很难有标准化的流程及模式。另外,由于勘探开发研究及管理工作都是循环往复,不断深入的,在实际工作中产生了大量重复的不同版本的成果,对这些成果的业务描述更加困难。
业务描述的核心在于对业务工作过程的合理抽象和归纳,抽象出来的业务模型要能够真正覆盖所有的业务,同时又能够让不同的成果按照业务逻辑区分开。这方面POSC做了很多的工作,可惜他们的工作中途终止了,但是他们的思路非常不错,可以借鉴。
3.4 数据关系标准化
在“数据管理模型的作用”这篇文章里说过数据之间的专业逻辑关系在数据应用过程中非常重要,目前的数据模型对数据的逻辑关系的描述基本没有。由于石油勘探开发数据都是主动数据,数据都是被设计出来的(这个概念非常重要,后面我反复用到),其数据之间的专业逻辑关系在设计数据过程中同时被设计出来了,可以说先有数据的专业逻辑关系,后有实体数据。因此数据之间的专业逻辑关系是可以独立于具体数据存在的,这就为数据专业逻辑关系模型的设计和管理提供了新的思路,可以脱离于数据存储模型单独设计。
数据的专业关系也是多维度的,如对象之间的关系(如圈闭与井两个对象的包含关系)、数据维度之间的关系(如测井自然电位和伽马曲线的关系)、数据KID关系(如储量计算中有效厚度、四性关系、测井曲线的关系)、数据的专业应用关系(储层评价要用到物性资料等)、数据产生的关系(如同一个项目研究成果)等等,这些关系不仅仅是两两之间的简单关系,往往是一个复杂的网状关系,对这些复杂的专业逻辑关系进行管理就需要设计出合理的关系模型。
3.5 其它元数据标准化
围绕数据描述还有很多其他的元数据信息,在数据标准设计过程中也需要将这些元数据逐个标准化。在描述数据的元数据体系中,包含多个方面的信息,将这些信息标准化也是非常重要的工作,特别是数据源头、数据产生、数据单位等对后期数据使用影响较大。
3.6 数据对象标准化
在“石油数据的本质”这篇文章中,我们定义说数据就是对某个对象(事物)某个方面属性的描述。由于石油勘探开发业务的复杂性,一般在描述一个对象属性时想要一组数据,如果将一组数据拆散就没有什么意义。如井位数据至少包括井名、X坐标、Y坐标、完钻深度等。如果把这些数据拆开来就没有任何意义。我们可以把完整描述一个对象某个方面属性的描述集合称之为一个业务数据对象。
业务数据对象就像一个物质的基本分子结构,分子结构有各种物理化学特征,也有物质的使用特征。根据业务数据对象的定义,一个业务数据对象是业务数据的基本单元,也是数据应用的最小单元,我们对业务数据进行任何操作都是以业务数据对象作为基本单元。从一个完整的数据对象来看,需要有几个方面的要素:
业务数据对象基本内容是说明目标对象基本特征的信息,或者说是主数据信息;属性维度是说明对象哪个方面的属性信息;数据内容就是某个属性具体数据内容;专业展示方式是指数据对象在专业方面的展示形式,也就是呈现形式。数据对象元数据信息和上面所说的元数据信息一样。
由于业务数据对象是石油数据应用的基本单元,如果我们能够将业务数据对象标准化,就可以解决数据应用中的很多问题,如数据操作的定义、图形展示的定义、格式操作的定义、知识管理单元的定义等。由于业务数据对象的使用主要是业务单元的定义,通过数据对象的定义和管理还可以解决数据结构化、非结构化一体化管理问题。也为后续的大数据应用、知识图谱应用奠定坚实的基础。
标签:石油,对象,标准化,业务,标准,数据,描述 来源: https://blog.51cto.com/15069843/2657000