Деревья решений

Модуль «КОНКОРД-Деревья решений» основывается на алгоритме построения бинарных деревьев решений. Деревья решений – это способ представления правил в иерархической, последовательной структуре. Под правилом понимается логическая конструкция, представленная в виде "если ... то ...".  

С помощью данного программного модуля можно обучать модели двух типов: классификационные и регрессионные.

 

В классификационных моделях каждому объекту соответствует единственный лист дерева (его конечный узел), определяющий к какому классу объект относится. В регрессионных моделях каждому объекту соответствует лист дерева, определяющий значение целевой переменной.
Это позволяет решать такие задачи как:
  • отбор скважин-кандидатов для проведения различных видов ГТМ

  • выбор скважин-кандидатов для бурения

  • анализ причин низкой эффективности уже проведенных мероприятий.

  • численное прогнозирование показателей эффективности ГТМ (дебитов нефти, жидкости, обводненности и т.п.),

  • выявление основных параметров, влияющих на добычу нефти.

 

Правила принятия решений в обоих видах моделей удобно визуализировать в виде соответствующей древовидной схемы:

ДР 2               ДР 1

Рис.1. Классификационное дерево                                                                      Рис.2. Регрессионное дерево

 

Несколько деревьев могут объединяться в так называемые леса принятия решений (комитет деревьев). В этом случае прогнозное значение целевой переменной определяется путем голосования комитета деревьев.

Входные данные для работы модуля:

  •  Информация по скважинам:
    • идентификаторы скважин,

    • значения целевой переменной (дискретные в случае построения классификационной модели и непрерывные в случае регрессионной модели),
    • - различные атрибуты: геологические, технологические, сейсмические и т.д.
  • Разделение на выборки:
    • на обучающую и тестовую выборки (по желанию пользователя разбиение может быть случайным),
    • выделение (по желанию пользователя) прогнозной выборки, не участвующей в обучении.
  • Параметры случайного леса: максимальное число деревьев в лесу, максимальная высота дерева, минимальная поддержка приятия решения и т.п.

В результате работы модуля:

  • для каждой скважины определяется прогнозное значение – класс или величина целевой переменной (средний прогнозируемый дебит нефти, жидкости, обводненности и т.п. после ГТМ либо входной дебит нефти);
  • визуализируются деревья с правилами принятия решений, что позволяет проследить все причины эффективности/неэффективности анализируемого мероприятия;
  • строится карта прогнозного распределения значений целевой переменной;

  • есть возможность посмотреть на карте скважины, попавшие в определенный лист дерева решений.

 

Модельные значения по каждому объекту сравниваются с фактическими, таким образом определяется ошибка обучения (ошибка тестирования).

Можно проследить зависимость ошибок от числа деревьев, входящих в комитет и определить оптимальное число деревьев, обеспечивающих минимальные ошибки в обеих выборках.

 

ДР 3

Рис.3. Изменение доли ошибочной классификации с ростом числа деревьев в случайном лесу для признака «низкий дебит нефти»

 

ДР 4

Рис.4. Доли ошибочной классификации для признака «низкий дебит нефти»