Introdução
Árvores de decisão (DTs) são um método de aprendizagem supervisionado não paramétrico usado para classificação e regressão. O objetivo é criar um modelo que preveja o valor de uma variável alvo, aprendendo regras de decisão simples inferidas a partir dos recursos dos dados.
Entropia
O objetivo do treinamento é encontrar as melhores divisões nos nós para encontrar a árvore ideal. As divisões são feitas usando alguns critérios como: Entropia.
Existem muitas definições de entropia, como:
-
A entropia corresponde à quantidade de informação contida numa fonte de informação.
-
A entropia também pode ser vista como a aleatoriedade ou a medição da surpresa num conjunto.
-
A entropia é uma métrica que mede a imprevisibilidade ou impureza do sistema.
Nas árvores de decisão, consideraremos a entropia como a medida da pureza dentro de um nó. O objetivo do modelo de árvore de decisão é reduzir a entropia dos nós em cada divisão:
Assim, queremos maximizar a diferença entre a entropia do nó pai e a entropia dos nós filhos. Essa diferença é chamada de Ganho de informação.
A Entropia de um conjunto é formulada matematicamente da seguinte forma:
Ganho de informações
Ganho de informação é a diferença entre a entropia do nó pai e a soma ponderada das entropias dos nós filhos e, portanto, pode ser formulado da seguinte forma:
onde:
-
é a entropia.
-
é a população anterior à divisão, representa o nó pai.
-
é a variável que queremos usar para a divisão.
-
é um valor único de X.
-
é uma lista dividida com apenas valores .
vamos dar um exemplo adequado:
Vamos calcular o ganho de informação quando dividimos o nó pai usando os valores de X:
\
Primeiro, calculamos a entropia do nó pai:
\
Em seguida, calcularemos a probabilidade interna de cada nó filho após a divisão usando os valores únicos de X:
Como:
-
: representa a entropia do primeiro nó filho.
-
: representa a entropia do segundo nó filho.
\
Começamos com o primeiro nó filho:
\
E então o segundo nó filho:
\
Por fim, substituímos as entropias na fórmula de Ganho de Informação:
\
\
Conforme afirmado anteriormente, o objetivo de uma divisão de nó é maximizar o ganho de informação e, assim, minimizar a entropia no nó filho resultante. Para fazer isso, precisamos tentar dividir o nó com diferentes conjuntos de entradas e mantemos apenas a divisão que maximiza o ganho de informação:
Quando parar de dividir
A divisão de nós nas árvores de decisão é recursiva, portanto deve haver um critério que possamos usar para interromper a divisão. Estes são alguns dos critérios mais implementados:
-
Quando o nó é puro: H(nó) = 0. É inútil dividir ainda mais o nó.
-
Número máximo de profundidade: Podemos definir uma profundidade máxima que o modelo pode atingir, isso significa que mesmo que o nó não seja puro a divisão é interrompida.
-
Número mínimo de amostras por nó: Também podemos definir um número mínimo de amostras por nó. Se o número de amostras por nó for igual a então paramos de dividir mesmo que o nó não seja puro.
Ao final do treinamento (a divisão), cada nó que depende do final da árvore de decisão é chamado de “Folha”, pois não é raiz de nenhuma subárvore. Cada folha representará o rendimento da classe com maior número de amostras.
Conclusão
A árvore de decisão é um dos algoritmos de aprendizado de máquina mais famosos devido à sua eficiência, experiência intuitiva e implementação simples. Este algoritmo pode ainda ser usado com variáveis numéricas independentes (árvore de decisão gaussiana) e também pode ser estendido para resolver tarefas de regressão.