问题的提出upload.univs.cn/2013/1108/1383878001669.pdf4 3 测井曲线自动分层问题 ①...

15
4 3  测井曲线自动分层问题 王学彬 李欣 李怡鑫 指导教师 曹沅 复旦大学 上海 200433  caoy@ fudan. edu. cn 在地球物理勘探中 常常需要利用测井资料了解地下的地质情况 首先需要根 据测井曲线进行地层划分 本文综合运用单因素分层法 多因素分层法 聚类分析法进行地 层划分 单因素分层法基于单一测井曲线进行分层 多因素分层法则先简单合并单因素分层 法的结果 之后通过聚类分析将分点进行聚类 得到最终分层点 关键词 移动窗口法 单因素分层法 多因素分层法 聚类分析法 问题的提出 在地球物理勘探中 利用测井资料进行岩性判别 储层划分和油气水测井识别时 首要 的一项工作就是根据测井曲线进行地层划分 测井曲线分层的目的是为了在今后的研究中 便于对具有不同特点的地层确定研究目标 以及确定将要重点研究的地层 统一不同井号的 研究范围 因此 准确地对测井曲线进行分层处理是十分重要的 通常 测井工作都是通过人 工来进行的 通过前期地质研究工作 结合各种测井数据 首先对最早开发的参考井进行详 细研究 地质人员通过经验 综合各种测井数据反映的地层特点 从一定深度开始 对井进行 井层划分和命名 该方法不仅费时费力 而且分层过程受测井分析人员的经验知识和熟练程 度影响较大 主观性较强 也会因为不同的解释人员的个人标准产生误差 从而造成不同的 人员有不同的分层结果 我们希望利用已有的分层井数据与变化特点作为控制点 结合每口 井丰富的测井曲线数据 如密度 声波 中子和电阻率等的变化特点 建立合理的数学模型 实现井位分层人工智能处理 也就是实现自动分层 提高工作效率 提高分层精度 基本假设 一个井层是指在物理 化学等各方面性质保持相对稳定的一段区域 即同一井层的 测井值保持相对稳定 井层宽度不能过小 即不存在薄层 所以相邻较近的两分点可以合并 同时井层宽 度也不能过大 本文得到国家基础科学人才培养基金资助 项目号 J1103105.

Upload: others

Post on 29-Dec-2019

23 views

Category:

Documents


0 download

TRANSCRIPT

4 3  测井曲线自动分层问题①

王学彬   李欣   李怡鑫   指导教师:曹沅(复旦大学   上海   200433  caoy@ fudan. edu. cn)

摘   要:在地球物理勘探中,常常需要利用测井资料了解地下的地质情况,首先需要根据测井曲线进行地层划分 .本文综合运用单因素分层法、多因素分层法、聚类分析法进行地层划分 .单因素分层法基于单一测井曲线进行分层 .多因素分层法则先简单合并单因素分层法的结果,之后通过聚类分析将分点进行聚类,得到最终分层点 .

关键词:移动窗口法   单因素分层法   多因素分层法   聚类分析法

一、问题的提出

在地球物理勘探中,利用测井资料进行岩性判别、储层划分和油气水测井识别时,首要

的一项工作就是根据测井曲线进行地层划分 .测井曲线分层的目的是为了在今后的研究中,便于对具有不同特点的地层确定研究目标,以及确定将要重点研究的地层,统一不同井号的

研究范围 .因此,准确地对测井曲线进行分层处理是十分重要的 .通常,测井工作都是通过人工来进行的,通过前期地质研究工作,结合各种测井数据,首先对最早开发的参考井进行详

细研究,地质人员通过经验,综合各种测井数据反映的地层特点,从一定深度开始,对井进行

井层划分和命名 .该方法不仅费时费力,而且分层过程受测井分析人员的经验知识和熟练程度影响较大,主观性较强,也会因为不同的解释人员的个人标准产生误差,从而造成不同的

人员有不同的分层结果 .我们希望利用已有的分层井数据与变化特点作为控制点,结合每口井丰富的测井曲线数据,如密度、声波、中子和电阻率等的变化特点,建立合理的数学模型,

实现井位分层人工智能处理,也就是实现自动分层,提高工作效率,提高分层精度 .

二、基本假设

(1)一个井层是指在物理、化学等各方面性质保持相对稳定的一段区域,即同一井层的测井值保持相对稳定;

(2)井层宽度不能过小,即不存在薄层,所以相邻较近的两分点可以合并,同时井层宽度也不能过大 .

471① 本文得到国家基础科学人才培养基金资助,项目号:J1103105.

三、数据预处理

(一)异常值处理

1 .操作原因测井值中有大量的无效数据,所以在建立模型前需要进行异常值处理 .

数据在起始、中间和结尾都出现了大量的,如 - 9 999,- 9 000或 9 000这样偏离正常范围的“奇异”数据 . 这些“奇异”数据多半是因为测量方面的失误或仪器精度等问题造成的

[1,2],它们严重超出了普通数据的阈值,由此产生的分层点很可能是错误的 . 因此,有必要

在考虑分层之前对这类数据进行处理 .2 .异常数据的判断我们采用直观作图法,将原始数据在[- 10 000,10 000]内的图像画出来,直观地将那

些严重偏离一般数据值的数据认定为无效数据 .经过权衡对比,我们取定正数 err = 4 000作为阈值,凡绝对值大于 err 的便被认定为无效数据 .

3 .处理方法数据处理主要有两种方法,其一是线性插值处理(参见图 1(b)),设 y(i + 1)到 y(j - 1)

是一串无效数据,而 y(i)和 y(j)有效,令

槇y(k)= y(j)- y(i)h(j)- h(i)

[h(k)- h(i)]+ y(i)    (k = i + 1,i + 2,…,j - 1). (1)

另一种处理方法是,将无效数据删除,而将剩下的有效数据依原次序拼接到一起(参见图 1(c)).

0

50

100

150

200

250

300 -5 000-10 000 0

0

50

100

150

200

250

300 -5 000-10 000 0

0

50

100

150

200

250

300 -5 000-10 000 0

(a)原始数据           (b)线性插值             (c)删除无效数据

图 1  两种数据预处理图示

571

这两种处理方法各有利弊,在不同的操作中我们使用不同的方法 .在测井曲线的筛选过程中(见“(二)测井曲线的筛选”),我们使用前一种方法筛选出

相关性较低的数据(这里的相关性自然是针对有效数据而言的). 由于无效数据与有效数据在数值上相差悬殊,这种差异对数据的相关性有很大影响,而真正的有效数据之间的相关性

则被弱化了 .通过第一种方法的处理,正常数据之间的相关性被突显出来,可以通过后续操作达到数据筛选的目的 .而第二种方法直接删掉异常值点,由于不同曲线异常值出现的位置不同,可能使处理后的曲线长度不同,且点与点之间发生错位,无法考虑相关性 .因此在曲线筛选中使用第一种方法进行异常值处理 .

在单因素分层过程中(见“四、单因素分层”),则选用第二种数据处理方法 . 因为异常值点处无需分层,删去异常值点不会减少合理的分层点 . 而且删去异常值点后,其两侧的正常数据值梯度并没有改变,不会影响正常数据的分层结果 .另一方面,在第一种方法中,正常点数据决定的分层也会由第二种方法决定出来,因为若第一种处理方法中的某一无效测量点

经线性化处理后,能决定该处为分层点,那么这点两侧的原始有效点测井数据相差很大,这

样数据经第二种方法处理后分层点仍可以判断出来;反之,在第二种处理后的数据如果能在

拼接点处判定为分层点,却不一定能在第一种处理方法中分出层来,因为很有可能拼接位置

中间原来有很多无效点,经第一种线性化处理后两侧有效数据的差别变得平缓了,不一定会

再分出层来 .从这个角度思考,第二种无效点处理方法更适合些 .

(二)测井曲线的筛选

题目中共提供了 66 条不同的测井曲线,通过直观作图可以发现,不同的测井曲线具有不同的特点,有的曲线有明显的数据波动,有的曲线相对平缓,还有些曲线相关性较高 .

一方面,平缓的曲线对分层的作用不大[1],另一方面,测井曲线中有许多曲线相关性较

高,且对全部曲线综合分层的工作量过大,忽略某些曲线可以大幅提高分层效率,所以需要

对测井曲线进行筛选 .通过作图,我们可以初步筛选出波动较大的曲线,通过对这些曲线测井值的聚类分析,

可以找出相关性较高的曲线簇,从每簇中仅选取一条测井曲线进行分层 .在筛选之前,首先要对测井曲线进行无效数据的处理,根据上一部分的讨论我们使用线

性插值的方法进行数据处理 .筛选工作是利用 PASW软件进行聚类分析完成的,通过对已知各测井曲线的测井值进行相关性分析,将相关度高的测井曲线依次聚类 .

根据以上聚类方法,我们选择出以下 10 条曲线进行进一步分层:SPC,RILD%,RMN,CNL,DEVi,GR,SP,PORD,R4. 0,R4. 0% .

四、单因素分层

(一)操作目的

虽已进行了测井曲线的筛选,但一次性综合数种因素进行分层仍较为复杂 .为简化分层问题,可以先进行单因素分层,再综合不同因素的分层结果,得到最终分层 .下面介绍基于单一因素的分层方法 .

671

(二)分层原则

由假设(1),一个井层应该在物理、化学等各方面性质保持相对稳定,体现在测井数据

上,对于任意测井曲线,一个井层内点的测井值保持相对稳定 .因此可以认为,同一井层是指对层内测量点关于任意测井曲线其测量值在允许有小幅波动情况下保持相对稳定 .相反地,

如果在某一测量点附近,某一测井曲线的测井值有大幅波动,并且变化后的数值在一定范围

内维持相对稳定,这种数据的非小幅波动很可能是由井层变化引起的,该测量点很有可能就

是分层点,也就是说,这样的数据现象是井层分层的标志 . 这正是我们进行自动分层的基本

依据[1].

(三)初步尝试

我们曾经尝试用“层内分析法”进行单因素分层,但“层内分析法”是一种理想化的方

法,在具体分层时效果不佳[2,3],我们先给出层内分析法分层的大致思路与失败原因分析 .

选定深度为 h(i)的测量点作为起点,考察点 h(i)到点 h(i + n)测量值的均值,与点h(i)到点 h(i + n + 1)测量值的均值之差 .若大于一个阈值 EF,则在点 h(i + n)与点 h(i +n + 1)之间进行分层;否则,考察点 h(i + n + 1)与点 h(i + n + 2).

首先,由于有些测井曲线的测井数据在某一段区域内会出现剧烈的震动,导致连续

分层 . 因此有必要为井层宽度确定一个下界,即一层内至少要有若干个点,不妨记为 smin .

其次,在实践中会得到这样的分层结果:只在最开始的测井点附近分层,且层很薄,之后

的大量测井点均无分层 .之所以会出现这样的结果是因为求平均值的点数过多 . 举例来说,

我们极端地假定一组关于测井曲线 F 的测井数据如下:h(1)= h(2)= … = h(100)= 10 . 0,

h(101)= … = h(100 + smin)= 10 . 0 +34EF,

h(101 + smin)= … = h(100 + 2smin)= 10 . 0 -34EF,

其中 smin = 10,EF = 5 .对于这组数据使用层内分析法分层时,h(2)到 h(99)显然都不是分

层点,而 h(100 + smin)很有可能就是分层点 . 但是由于求均值的点数过多,h(100 + smin)与h(101 + smin)的数据波动在求均值后得不到体现,这样分层点就被忽略了 .为避免上述现象的发生,需要给求均值的测量点个数设定一个上限,这也就相当于为井层宽度确定上限,不

妨记为 smax .当井层宽度大于 smax 时,强制分层 .

通过附加限定条件,用层内分析法做单因素分层才可能合理 . 但我们的分层结果显示,

依此法分层得到的井层宽度均一,几乎都是 smax,分层点的产生很有可能都是由于 smax 的限

制 .为验证这一想法,我们改变 smax 的大小,发现分出的井层宽度确实仍保持与 smax 基本一致 .因此,我们认为层内分析法分层无效 .

实际上,分层无效是因为当计算平均值的测量点数量累积过多后,均值开始趋于不变,

无法判断分层 .实质上,分层应该是一种对局部数据的操作,这为重新建立的分层方法指明了方向 .

771

(四)移动窗口法

基于对上述尝试失败原因的反思,我们改造了分层方法,采用“移动窗口法”(以下简称

“窗口法”)来判断分层点的位置 .所谓“移动窗口”实质上是一种局部概念,窗口的设定是给求平均值的测量点一个范

围,限定点的个数 .具体来说,考察点 h(i)时,需取一个以 h(i)为端点、宽为 d的“窗口”,该窗口包含从 h(i - d)到 h(i)或从 h(i - d)到 h(i + d)的全部测量点,在窗口限定范围内检验数据的增减变化 .

我们给出以下两种具体的判定方法:

1 .方案一:wp 移动窗口法所谓“wp”即 window & point,若要考察测量点 h(i)是否为分层点,就要用 h(i)处的测

井值与其左侧窗口中所有测量点的测井值的均值进行比较,进而对其是否为分层点作出判

断 .如图 2 所示 .200

180

160140

120

100

80

60

40

20

00 50 100 150

∆y

index�d index

����

图 2  wp 窗口示意图

首先,取定正整数 d 作为标准窗口厚度,d 实质上表征了井层的最小宽度,取定正数 δmin作为决定非小幅波动数据变化的最小值 .于是,判断测量点 h(i)是否为分层点,只需在其左侧宽为 d 的窗口 h(i - d)~ h(i - 1)中,计算这些测量点处的测井数据的平均值

yi =1d∑

i -1

j = i - dy(j). (2)

然后用 h(i)处测井数据 y(i)与均值yi 作比较,若| y(i)- yi | ≤ δmin, (3)

则可判定该测量点处测井数据仅发生了小幅波动,依照分层原则,h(i)与前面的测量点处于同一井层;而一旦

| y(i)- yi | > δmin, (4)这样的数据波动便不再是小幅波动,h(i)与前面测量点处于不同井层,即 h(i)为分层点 .依照此法继续考察下一个测量点 h(i + 1).这便是 wp 移动窗口法的基本操作方法 .

2 方案二:ww 移动窗口法“ww”是 window & window,若要考察测量点 h(i)是否为分层点,就要取 h(i)左、右两

侧两个宽度为 d 的窗口,分别计算两窗口中所有测量点的测井值的均值,进行比较,从而判871

断该测量点是否为分层点 .如图 3 所示 .

200

180

160140

120

100

8060

40

20

00 50 100 150

∆y

index�d index+dindex

图 3  ww 窗口示意图

具体来讲,取定正整数 d 作为标准窗口厚度,取定正数 δmin 作为决定非小幅波动数据变化的最小值 .在判断测量点 h(i)(i = 1,2,…)是否为分层点时,先分别计算左侧窗口的测井平均值,即 h(i - d)到 h(i - 1)共 d 个测量点的测井平均值

yli =1d∑

i -1

j = i - dy(j) (5)

和右侧窗口的测井平均值,即 h(i + 1)到 h(i + d)共 d 个测量点的测井平均值

yri =1d∑

i + d

j = i +1y(j), (6)

然后将点 h(i)的左、右窗口平均值的差,即Δyi = | y

li - y

ri | (7)

与阈值 δmin 作比较,若

Δyi > δmin, (8)

则断定该点为单因素 F 决定的分层点;否则不分层 . 然后对下一点 h(i + 1)继续做相同考察 .最终得到由单因素 F 决定的分层点列 dif.

3 模型比较与结果分析下面我们分析一下这两种方法的优劣 . 从根本上讲,“wp 移动窗口法”分层的标准不

甚准确,因为它仅依据某一测量点的测井数据与前面 d 个测量点数据的平均值的差异来判断分层与否,这样并不能保证之后各点测井数据重新维持稳定 .如果遇到数据在某一区域有较大波动时,这一区域内的点可能会被判定为分层点,而这些测量点的测井值在整体上还是

相对稳定的,此时,分层未必合理 . 换句话讲,“wp 移动窗口法”很可能多分出许多本不该分层的分层点,这样的单因素分层结果会对后面的聚类过程产生影响,并为最终的分层结果

带来较大的误差 .基于上面的分析,我们选择“ww 移动窗口法”进行分层 .4 参数选取(1)窗口厚度 d 的选取窗口厚度 d 选取得越小,最终被判定为分层点的测量点就越多,反之,点就越少,但 d 并

不能依据预期分层的数量多少来决定 .由前文所述,同一井层关于任意测井曲线的测量值都971

保持相对稳定,即允许有小幅波动,一旦 d 的取值过小将导致分层缺少了对这种层内数据稳定性的考量,层内测量值的小幅波动也将导致分层,由此导致的多余的分层点是不合理的;

反之,一旦 d的取值过大,两个本应属于不同井层的测量点将被合并在一起计算yli或yri,但该

数值只在同一井层内保持相对稳定,取平均值才有意义,所以 d 取值过大也同样丧失了考察的价值 .

综上,d 的取值是与井层的宽度密不可分的,太大、太小都不合理 . 通过参考标准井的分层数据,可以得到标准井层的最小宽度 dmin 与最大宽度 dmax,则窗口厚度 d 应满足

dmin ≤ d ≤ dmax . (9)

基于这样的考虑,经过多次尝试,我们选取 d = 20 .(2)阈值 δmin 的确定在关于单因素 F 进行分层时,判定一个测量点是否为分层点的主要指标是阈值 δmin . 根

据分层的总思路,在对第 k口井进行分层时,前 k - 1口井的分层情况已知,故前 k - 1口井均可作为标准井参考,所以 δmin(i),1 ≤ i≤ k - 1 都是确定的值 .因此在对第 k口井分层时,其阈值 δmin(预测值)至少应满足前 k - 1口井关于测井曲线 F的分层 .但每一口井都各有特点,

希望求得一个公共的 δmin使得按其为前 k - 1口井进行分层都能得到标准分层的结果是不现实的,但 δmin 的选取至少应保证,按照该 δmin 对前 k - 1 口井关于测井曲线 F 分层时,所有的标准分层点都不能缺失 .换句话讲,如果对前 k - 1 口井分别计算它们关于测井曲线 F 的δmin(i),1≤ i≤ k - 1,则第 k口井关于测井曲线 F确定的 δmin应小于等于每一个 δmin(i),1≤i ≤ k - 1,即有

δmin ≤ min1≤ i≤k -1

δmin(i). (10)

为了简便起见,规定

δmin = min1≤ i≤k -1

δmin(i). (11)

而对于前 k - 1 口井 δmin(i),1 ≤ i≤ k - 1 的确定,下面以第 1 口井为例进行说明 .已知第 1

口井的标准分层点序列为 dif,对于每个分层点 dif(i),求其关于测井曲线 F 的左、右窗口平均值的差,即 Δyi .在得到的 Δy序列中,取所有数据的最小值,便可得到 δmin(1),它可以保证若以此为阈值,第 1 口井关于测井曲线 F的标准分层点在模型分层中无缺失 .用同样的方法对第 2 ~ k - 1 口井操作,可求出 δmin(i),1 ≤ i ≤ k - 1 .

这里需要说明的是,δmin 与 δmin(k)是不同的 .运用模型对第 k 口井进行分层预测时,可以利用前 k - 1 口井的信息求得 δmin 的值,实质上它包含了一种临时变量的意义,是一个“预测值”,而当我们为第 k + 1 口井进行分层预测时,第 k口井就从待分层的井变成了已知分层的标准井,δmin(k)是一个确定值,一般有

δmin ≤ δmin(k), (12)

二者度量的是不同时期的量,故并不相同 .

(五)单因素聚类

1 操作目的在实际操作中,根据“ww 移动窗口法”进行分层时,会出现重复分层现象 .所谓重复分

层,并不是指将某一测量点多次判定为分层点,而是在某一确实应该被判定为分层点的测量

081

点两侧,出现了一定数量的连续的测量点也被判定为分层点 .也就是说,若测量点 h(i)被判定为关于单因素 F 的分层点,那么有可能一段连续的测量点 h(j)(i - k≤ j≤ i + l)都会同时被判定为分层点 .

进行单因素聚类,就是为了消除重复分层现象带来的干扰,即对于正常分层点周围(某

一阈值范围内)出现的重复分层点进行合并 .

之所以会出现重复分层现象,可以以一个直观的例子来说明:假设有某一口井关于因素

F 的测量值为y(i)= 0(i ≤ 100),y(j)= 2m(j ≥ 101), (13)

而确定的参数值为

d = 20,δmin = m. (14)

显然,测量点 h(100)或 h(101)应该为这口井确定的分层点,暂不考虑到底应以 h(100)还是 h(101)为分层点的问题(事实上,这对于分层结果的影响不大),但问题在于,根据模型,

从 h(90)到 h(110)的 21 个测量点,Δyi(90 ≤ i ≤ 110)分别为

m,2220m,2420m,…,38

20m,2m,2m,38

20m,…,24

20m,2220m. (15)

依照分层标准,很自然地会把 h(90)到 h(110)都判定为分层点 .以上的例子虽然极端,但在实际分层中我们确实多次遇到了重复分层的现象 . 因此,有必要在进行多因素分层之前,排除这种重复分层所带来的干扰 .

2 聚类方法根据上面的叙述,重复分层的分层点大都会连续出现,我们仍用上面的例子来研究如何

删除重复分层点 .

经计算,上例中各分层点的 Δy 是不完全相同的,具体如下:

Δy90 = m,Δy91 =2220m,…,Δy99 =

3820m,Δy100 = 2m,

Δy101 = 2m,Δy102 =3820m,…,Δy109 =

2420m,Δy110 =

2220m.

(16)

容易看出,在真正的分层点处,它的 Δy是其重复分层区域中最大的,因为真正的分层点应该是其重复分层点中数据波动最强烈的 . 所以,只需求出连续的分层点中 Δy 的最大值即可,相应点即为分层点 .考虑到两个独立的分层点它们的重复分层点区域可能相交,所以事实上我们要取出区域中的所有极大值点,而非最大值点 .

由假设(2),井层中不存在薄层,因此,应限定这些极大值点间的最小距离为某一阈值 d,再将距离小于 d 的极大值点合并到一起,这样就可以选出无重复分层的分层点 .

3 阈值确定目标是将连续的重复分层点合并为一个点,这里涉及的问题是要将多大范围内的

分层点合而为一 . 如上面的例子,一般来说,重复分层点的连续范围在 d个测量点左右,

故考虑设定阈值为窗口宽度 d. 一方面,并不是说这个阈值越大越好,因为有可能出现非重复分层点比较密集的现象,如果阈值过大,在这一片分层点中就会有某些非重复

分层点被错误地删去 . 另一方面,阈值过小重复点又删不尽,因此我们取阈值为 d,即使181

有一些重复点残留,在进一步多因素分层进行整体聚类时这些点也会被合而为一 .4 合并方法若在阈值 d 内仍有多个分层点,则应将这些重复分层点合而为一 . 根据上文的例子,可

以选取重复分层点的中间位置为合并后的分层点,也就是说,若 h(1)到 h(d)是单因素分层

时的重复分层点,则将它们合并到测量点 h d[ ]( )2.

5 聚类操作综上所述,单因素聚类的过程是先求得所有测量值取到极值的分层点,若两极值点距离

小于 d,则合并为一点,否则保留 .重复这个过程直到考察完每一个分层点 .

五、多因素分层

(一)操作目的

因为一口井的最终分层情况是由多个因素共同决定的[1],我们需要将各个因素的分层

情况进行整合,并通过聚类分析决定最终的分层情况 .基本聚类思路是先将各个单因素分层的结果取并集,然后对这个并集做聚类分析 .

(二)数据整合

对于某一口待测井,按照前文所述可完成关于各个选定测井曲线的单因素分层,记得到

的单因素分层的分层点列分别为 dif 1,dif 2,… .对这些点列取并集,得到

D =∪ndif n, (17)

称为分层点集 .

(三)聚类方法

聚类的方法有很多种,我们采用的是“距离聚类法”和“打分聚类法”.1 距离聚类法所谓距离聚类法,出发点是团簇的分层点应聚为一个 . 在分层点集 D 中,如果有某一处

分层点比较密集,那么必定是有多个因素共同决定在这附近分层,这些分层点应合并为一个

点作为最终分层点 .(1)聚类原则若从分层点簇出发,直接将簇聚类,需要确定待合并点簇的宽度阈值 . 作图发现(如图 4

所示),有些分点非常密集、重合度很高,几个测量点之间聚集很多分层点,不妨称之为窄

簇;还有的区域分层点较为密集地分布在 10 到 20 个分点之间,但它们都与区域以外的分点距离较远,显然它们也应合并,不妨称之为宽簇 .于是,一旦阈值较小,宽簇将被分割;阈值过大,又将出现若干窄簇被合并的情况 .因此阈值的确定成为一个困难的问题 .并且,即使可以确定阈值,以点簇为出发点的聚类还是难以实现,因为在很多情况下,会出现大片分层点连续密

集排列的情况,其宽度远大于所取定的阈值,无法确定哪个分层点为阈值内待合并点簇的中心.

281

10.90.80.70.60.50.40.30.20.1

01 500 1 550 1 600 1 650 1 700 1 750 1 800 1 850 1 900 1 950 2 000

窄簇

宽簇

图 4  综合多因素分层未经聚类的分层图示

综上,放弃从分层点簇出发的思路,考虑分层点两两之间依次聚类 . 首先选取并集 D 中距离最近的两个分层点,对这两点进行聚类,将两点合并为一点后形成新的 D,再对新的 D

做同样的操作 .换句话说,就是不断地将 D 中最紧密的两个分层点合并,最后只要界定一个阈值作为距离的最小值 d′min,当所有分层点间距离都大于 d′min后便停止聚类,这便是我们最终选定的距离聚类的基本原则 .

(2)两个分层点的合并关于将两个点进行合并,直接取两个分点的中点是不可取的 . 当两点距离较近时,这种

做法是说得通的,但当聚类进行到后期,点与点之间的距离变大,取中点操作会产生较大误

差;另一方面,原始分点都是由某一测井曲线决定的,以这些点分层是有理论和数据支持的,

但以它们的中点分层便不再有理有据 .因此,将两个点合并的时候应在两点中选取其中一点作为合并后的分点 .

此时的两个分点可能是由不同的测井曲线决定的,直接比较二者关于各自测井曲线的

窗口两侧平均值的差是没有道理的 .但是,可以在“规范化”后进行比较 . 具体来说,假设要对 D 中两个分层点 h(i)和 h(j)进行合并,先分别找到决定它们为分层点的测井曲线 F1 和F2,求得分层点 h(i)关于测井曲线 F1 的窗口左、右两侧平均值的差,记为 Δy1,分层点 h(j)

关于测井曲线 F2 的窗口左、右两侧平均值的差,记为 Δy2,然后分别确定 F1,F2 的 δmin1 和δmin2,进行“规范化”得到

Δy′1 =Δy1δmin1,Δy′2 =

Δy2δmin2. (18)

其中 Δy′1和 Δy′2是对分层必要性的一种度量,它们表征了决定该分层点的单因素在该点处数据落差的大小 .一般来讲,两个分层点应合并到数据落差更大的分层点,但不同因素数据的阈值不同,不能直接比较数据的落差 .我们将 Δy′1和 Δy′2分别除以该因素的数据阈值 δmin1 和δmin2 得到相对落差,经过这样的统一后,再将分层点合并到相对落差更大的分层点处 . 故将二者进行比较,若

Δy′1 > Δy′2, (19)

则将 h(i)和 h(j)合并到 h(i),否则合并到 h(j).(3)阈值 d′min的确定d′min的大小是由标准分层决定的,且与聚类后井层的宽度直接相关 . 由于最终分层要求

是所有的分层点之间的距离都大于 d′min,而同时我们的分层方法要与标准井的分层结果相

381

近,因此 d′min实际上要略小于标准分层中井层宽度的最小值 .也就是说,假如以前 k - 1 口井作为标准井,首先应对其中每一口井的标准分层求出井层宽度的最小值,然后再求出这 k -1 个最小值的最小值,用这个值来尝试作为待测井的 d′min,

d′min = min1≤ i≤k -1

dmin(i), (20)

其中 dmin(i)表示 i口井井层的最小宽度 .并根据分层情况调整 d′min以达到分层情况与实际的井层分布相近 .

(4)操作过程我们以 3口井的多因素分层为例,展示模型的操作过程 .根据阈值的确定方法,取 dmin =

160,聚类结果如图 5 所示 .

0 100 200 300 400 500 600 700 800 900 1 000

0

-500

500

1 000

1 500

2 000

2 500

图 5  3 口井的多因素分层距离聚类结果

2 打分聚类法所谓打分聚类法,基本思路也是将相距较近的分层点进行合并,但操作方法和结果与距

离聚类法不同 .具体操作时,首先设定好一个阈值,针对某一分层点考察该点的邻域中由不同因素决定的分层点共有几个,记个数为该点的得分,打分低的就认为该点不是最终分

层点 .(1)操作目的应用距离聚类法后,如图 6(其中虚线是模型分层点,点划线是标准分层点),我们得到

的分层点已与标准分层点十分接近,但若仅有某一单一因素决定在某测量点附近分层,距离

聚类法将保留这样的分层点,而事实上,这有可能是由单一因素的异常导致的,这将导致多

余分层点的存在 .从图中可以直观地看到,距离聚类法应用于标准井进行分层后,得到的分层点集与标准分层的分层点集相似度较高,但主要差别在于模型分层点比标准分层点在首

尾多出一些分点 .由此,打分的目的实质上就是删除分层点列首尾的多余的低分分层点,提高分层的准确性 .

481

-5000 100 200 300 400 500 600 700 800 900

0

2 500

2 000

1 500

1 000

500

图 6  6 口井综合多因素分层中未经打分的分层图示

(2)打分原则打分考察的是到底有多少种不同因素判定某一测量点为分层点,实际操作时,先设定一

个阈值,对某个分层点邻域中由不同因素决定的分层点计数,这个数值就是该分层点的得

分,得分低的分层点被删除 .要注意的是,在某一测量点阈值内相同因素决定的分层点只能计 1 分 .

(3)分层点的选取根据操作目的,进行打分操作之前,距离聚类已将原始分层点集 D聚类变为 D′,使得 D′

中任何两个分层点之间的距离不小于 d′min .那么取定一个阈值大小 R,在以某测量点 h(i)为中心,R 为半径的范围 U = U(h(i),R)内统计不同因素决定的分层点的个数,以求取 h(i)的得分 .若在 U 内有 k 个由不同因素决定的分层点,则 h(i)的得分即为 k. 这里涉及应该统计 D 还是 D′中分层点的问题,我们认为应从最原始的分层点集 D 中寻找 . 因为打分的分数表征了到底有多少因素决定 h(i)的一个小邻域应包含分层点,而所有因素所决定的所有分层点全部在原始分层点集 D 内 .

(4)阈值 r 的选取在打分聚类中,若分层点的得分小于阈值 r,则该分层点将被删除 .阈值 r 主要是通过不

断测试模型和调整参数值来决定的 .具体来讲,对第 k号井进行分层时,以前 k - 1 号井作为标准井,将模型应用于前 k - 1号井并调整 r值,使每口井得到的分层点列的首尾多余分层点分数尽量低一些,然后通过对低分数分层点的删除过程尽量多删除多余分层点,而同时要保

证准确的分层点不被删除 . 满足上述条件的 r 值确定以后,便可将其应用于待测井进行分层 .

(5)操作过程根据上述阈值选取的办法,取定 r = 6,对于 6 号井的分层点进行打分,各分层点的得分

情况如表 1 .表 1  第 6 号井的打分结果

分层点 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

得分 5 8 8 8 8 8 7 8 8 6 6 9 7 9 9 8 9 9 3

由上表可知,通过打分过程我们可以轻松删去两端的多余分层,使分层更为准确,这正

是打分的目的所在 .

581

六、分层结果

通过本文所述方法,我们得到第 8 号 ~ 13 号井的分层预测结果如表 2 和图 7 所示 .表 2  第 8 号 ~ 13 号井最终分层结果

分点深度

第 8 号井 第 9 号井 第 10 号井 第 11 号井 第 12 号井 第 13 号井1 107 5 165 2 104 75 222 75 186 625 162 7252 147 5 208 075 128 375 273 25 215 5 187 2253 191 5 235 075 154 625 328 268 5 214 9754 245 75 269 075 191 5 369 625 309 375 252 355 284 375 305 825 221 875 390 625 353 5 272 4756 314 875 330 7 287 375 443 875 419 125 294 857 344 5 360 45 338 375 497 454 375 289 2258 384 125 389 325 383 520 478 125 396 2259 404 5 426 075 403 75 542 875 521 125 408 97510 476 75 466 7 448 625 566 625 543 75 459 3511 511 75 523 7 479 25 594 5 564 625 480 72512 536 375 563 075 520 875 623 75 595 375 508 47513 587 584 325 559 375 661 125 623 875 546 8514 628 25 610 545 583 687 875 659 25 580 115 650 875 671 325 638 75 746 375 680 25 601 97516 680 375 704 325 682 375 748 625 703 622 617 705 5 725 45 800 75 739 670 118 758 125 761 075 822 625 785 25 691 119 792 625 783 7 829 734 22520 813 625 822 075 759 47521 833 75 854 075 792 22522 864 5 813 22523 895 75 868 3526 922 2527 953 75

2 500

2 000

1 500

1 000

500

�500

0

100 200 300 400 500 600 700 800 900

2 500

2 000

1 500

1 000

500

0100 200 300 400 500 600 700 800 900 1 00

(a) ��� (b) ���

681

�500

0

2 500

2 000

1 500

1 000

500

100 200 300 400 500 600 700 800 900(f) ����

2 500

2 000

1 500

1 000

500

0 100 200 300 400 500 600 700 800 900(e) ����

2 500

2 000

1 500

1 000

500

�500

0

100 200 300 400 500 600 700 800 900(d) 11��

2 500

2 000

1 500

1 000

500

�500

0

1000 200 300 400 500 600 700 800 900(c) ����

图 7  8 号 ~ 13 号井分层图示

七、模型评价

(一)优点

(1)我们的模型预测过程与实际测井过程相类似,即可以通过对 1号井的分层预测 2号井的分层,根据 1 号,2 号井的分层预测后面井的分层,所以通过钻探更多的油井,模型的精度会不断提高,模型具有灵活性,而非一成不变 .

(2)简单分析可知,我们的模型具有较高的稳定性,即小幅度改变取定的各个参数,分层结果不会出现大的改变 .

(二)不足

(1)我们的模型不能做到井层的命名,只能给出分层点;(2)有些题目中提供的数据信息没有得到利用,如每口井的坐标位置等,可能会导致分

层结果与实际分层有一定的差异 .

781

八、参考文献

[1]朱立峰 . 火山碎屑岩层测井曲线自动分层方法研究 . 长春:吉林大学硕士学位论文,2009 . 5 .

[2]洪有密 . 测井原理与综合解释 . 东营:中国石油大学出版社,2002 .[3]纪荣艺,樊洪海,杨雄文,等 . 测井曲线自动分层模型设计与实现 . 石油钻探技术,

2007,35(2):24 27 .[4]张文彤,闫洁 . SPSS 统计分析基础教程 . 北京:高等教育出版社,2004 .[5]张文彤,董伟 . SPSS 统计分析高级教程 . 北京:高等教育出版社,2004 .

881