Деревья решений

Классификационная модель

Рассмотрим следующую задачу. Имеется выборка объемом 787 скважин, на которых были проведены ГРП. На основе этой выборки построим классификационную модель, позволяющую рекомендовать скважины к проведению на них ГРП. В основу классификации было положено наличие проблемы по величине средней обводненности после ГРП («да» = проблема есть, «нет» = отсутствие проблемы).

90% скважин было принято в обучение, 10% попало в тестовую выборку. Помимо этого, еще 68 скважин пошли в «контрольную выборку», по которой после проведения обучения и теста был построен прогноз.

ГРП на скважинах обучающей и тестовой выборок были проведены в течении 4 лет, а на скважинах контрольной выборки мероприятия проводились в более поздний период – в пятый год. Таким образом, задача была приближена к реальной постановке, когда требуется спрогнозировать целевую переменную на временной промежуток следующий за текущим.

Результаты прогнозирования представлены на рис.1. В контрольной выборке общая успешность обучения (так называемая Accuracy) составила 73%, в тестовой выборке доля распознанных объектов составила 74%, в контрольной выборке – 70%. В табл.1 приведены распределение ГРП по классам и ошибки прогнозирования.

DT 01

Рис.1. Распределение верной и ошибочной классификации в обучающей, тестовой и контрольной выборках для признака «высокая обводненность»

 

 Исходная классификация  Классификация с помощью деревьев решений Общее число ГРП  Ошибка классификации 
 Нет проблемы  Есть проблема
 Обучающая выборка

 Нет проблемы (низкая обводненность)

 312 74   386 19% 1-го рода
 Есть проблема (высокая обводненность) 119  203  322  37% 2-го рода
 Тестовая выборка
 Нет проблемы (низкая обводненность)  37  6  43  14% 1-го рода
 Есть проблема (высокая обводненность)  15  21  36 42%  2-го рода
 Контрольная выборка
 Нет проблемы (низкая обводненность)  28  9  37  24% 1-го рода
 Есть проблема (высокая обводненность) 11   20  31 35%  2-го рода

 Табл.1. Распределение числа ГРП в ходе классификации путем построения случайного леса по признаку «высокая обводненность» и ошибки данной классификации

 

Регрессионная модель

В условиях задачи из п.6.4.1 требовалось спрогнозировать средний дебит нефти путем построения регрессионной модели с использованием метода случайного леса.

При построении использовалось прежнее разбиение на 3 выборки – обучающую, тестовую и контрольную.

В результате была построена модель с указанными в табл.2 средними квадратами ошибок. В этой же таблице указаны дисперсии дебитов в обучающей и тестовой выборках.

 

Выборка Средний квадрат ошибки Дисперсия среднего дебита нефти после ГРП Коэффициент детерминации R2
Обучающая 45.51 68.00 0.33
Тестовая 65.97 80.51 0.18
Контрольная 71.13 98.47 0.28

 Табл.2. Оценка вариации для построенной регрессионной модели

 

По полученной модели на основе контрольной выборки были спрогнозированы значения средних дебитов нефти и определены средние квадраты ошибок (см. табл.2), вычислены коэффициенты детерминации. На рис.9-11 представлены корреляционные поля фактических значений среднего дебита нефти после ГРП и прогнозных значений, полученных с помощью случайного леса.

DT 02

Рис.9. Корреляционное поле для фактических и прогнозных значений среднего дебита нефти в обучающей выборке. Коэффициент корреляции составляет 58%.

DT 03

Рис.10. Корреляционное поле для фактических и прогнозных значений среднего дебита нефти в тестовой выборке. Коэффициент корреляции составляет 42%.

DT 04

Рис.11. Корреляционное поле для фактических и прогнозных значений среднего дебита нефти в контрольной выборке. Коэффициент корреляции составляет 54%.

На рис.12 представлена информация по проранжированным прогнозным значениям дебита нефти и соответствующим фактическим величинам для контрольной выборки.
Выше был определен коэффициент детерминации R2 = 0.28. Таким образом, 28% вариации дебита нефти объясняется построенной регрессионной моделью. 

 DT 05

Рис.12. Скважины ранжированные по прогнозному дебиту нефти (контрольная выборка)

 

Проверим качество прогноза, измерив для ряда сечений прогнозного признака средние значения фактического дебита нефти, соответствующие ГРП, имеющим прогнозные значения выше и ниже секущего уровня. Результаты приведены в таблице 3.

Ниже сечения Сечение, т/сут Выше сечения
Число ГРП Сред.дебит нефти, т/сут Число ГРП Сред.дебит нефти, т/сут
8 5.4 9 60 14.7
12 7.9 10 56 14.9
23 9.3 11 45 15.8
32 9.5 12 36 17.3
39 9.8 13 29 18.7
42 10.2 14 26 19.2
48 10.6 15 20 20.8
52 11.0 16 16 22.3
55 11.6 17 13 22.1
57 11.7 18 11 23.4
61 12.2 19 7 26.2

 Табл.3. Средние фактические дебиты нефти (т/сут) для скважин, у которых прогнозный дебит выше и ниже величины сечения соответственно

 

Таким образом, для рассмотренных сечений выполняется условие, заключающееся в том, что средние фактические величины дебитов, рассчитанных для скважин, имеющих прогнозное значение выше или ниже величины сечения, соответственно превышают и не превышают величины сечения.