Введение
Деревья решений (DT) — это непараметрический метод обучения с учителем, используемый для классификации и регрессии. Цель состоит в том, чтобы создать модель, которая прогнозирует значение целевой переменной, изучая простые правила принятия решений, выведенные из особенностей данных.
Энтропия
Цель обучения — найти лучшие разбиения в узлах, чтобы найти наиболее оптимальное дерево. Разделение осуществляется с использованием некоторых критериев, таких как: Энтропия.
Существует множество определений энтропии, например:
-
Энтропия соответствует количеству информации, содержащейся в источнике информации.
-
Энтропию также можно рассматривать как случайность или меру неожиданности в наборе.
— Энтропия — это показатель, измеряющий непредсказуемость или нечистоту в системе.
В деревьях решений мы будем рассматривать энтропию как меру чистоты внутри узла. Цель модели дерева решений — уменьшить энтропию узлов при каждом разделении:
Таким образом, мы хотим максимизировать разницу между энтропией родительского узла и энтропией дочерних узлов. Эта разница называется Приростом информации.
Энтропия множества математически формулируется следующим образом:
Получение информации
Прирост информации — это разница между энтропией родительского узла и взвешенной суммой энтропий дочерних узлов, поэтому ее можно сформулировать следующим образом:
где:
-
— энтропия.
-
— это популяция до разделения, она представляет родительский узел.
— — переменная, которую мы хотим использовать для разделения.
-
— уникальное значение X.
-
— разделенный список, содержащий только значения .
давайте возьмем правильный пример:
Мы собираемся рассчитать прирост информации, когда разделим родительский узел, используя значения X:
\
Сначала мы вычисляем энтропию родительского узла:
\
Затем мы собираемся вычислить внутреннюю вероятность каждого дочернего узла после разделения, используя уникальные значения X:
Такой как:
-
: представляет энтропию первого дочернего узла.
-
: представляет энтропию второго дочернего узла.
\
Начнем с первого дочернего узла:
\
И затем второй дочерний узел:
\
Наконец, мы подставляем энтропии в формулу прироста информации:
\
\
Как говорилось ранее, цель разделения узла — максимизировать прирост информации и, таким образом, минимизировать энтропию в полученном дочернем узле. Для этого нам нужно попытаться разделить узел с разными наборами входов и сохранить только то разделение, которое максимизирует прирост информации:
Когда прекратить расщепление
Разделение узлов в деревьях решений является рекурсивным, поэтому должен быть критерий, который мы можем использовать, чтобы остановить разделение. Вот некоторые из наиболее часто применяемых критериев:
-
Когда узел чистый: H(node) = 0. Дальнейшее разбиение узла бессмысленно.
-
Максимальное количество глубин: Мы можем установить максимальную глубину, которой может достичь модель. Это означает, что даже если узел не является чистым, расщепление прекращается.
-
Минимальное количество выборок на узел: Мы также можем установить минимальное количество выборок на узел. Если количество выборок на узел равно , мы прекращаем разделение, даже если узел не является чистым.
К концу обучения (разделения) каждый узел, опирающийся на конец дерева решений, называется «Листом», поскольку он не является корнем какого-либо поддерева. Каждый лист будет представлять собой класс с наибольшим количеством образцов.
Заключение
Дерево решений — один из самых известных алгоритмов машинного обучения благодаря своей эффективности, интуитивно понятной основе и простой реализации. Этот алгоритм в дальнейшем можно использовать с числовыми независимыми переменными (Дерево решений Гаусса), а также его можно расширить для решения задач регрессии.