Introdución
As árbores de decisión (DT) son un método de aprendizaxe supervisado non paramétrico utilizado para a clasificación e a regresión. O obxectivo é crear un modelo que prediga o valor dunha variable obxectivo aprendendo regras de decisión sinxelas que se deducen das características dos datos.
Entropía
O obxectivo do adestramento é atopar as mellores divisións nos nodos para atopar a árbore máis óptima. As divisións realízanse utilizando algúns criterios como: Entropía.
Existen moitas definicións de entropía como:
-
A entropía corresponde á cantidade de información contida nunha fonte de información.
-
A entropía tamén se pode ver como a aleatoriedade ou a medición da sorpresa nun conxunto.
-
A entropía é unha métrica que mide a imprevisibilidade ou impureza do sistema.
Nas árbores de decisión, consideraremos a entropía como a medida da pureza no interior dun nodo. O obxectivo do modelo da árbore de decisión é reducir a entropía dos nodos en cada división:
Así, queremos maximizar a diferenza entre a entropía do nodo pai e a entropía dos nodos fillos. Esta diferenza chámase Ganancia de información.
A Entropía dun conxunto formúlase matematicamente como segue:
Ganancia de información
A ganancia de información é a diferenza entre a entropía do nodo pai e a suma ponderada das entropías dos nodos dos criados, polo que pódese formular como segue:
onde:
-
é a entropía.
-
é a poboación anterior á división, representa o nodo pai.
-
é a variable que queremos usar para a división.
-
é un valor único de X.
-
é unha lista dividida con só valores de .
pomos un exemplo axeitado:
Imos calcular a ganancia de información cando dividimos o nodo pai usando os valores de X:
\
Primeiro, calculamos a entropía do nodo pai:
\
Entón, imos calcular a probabilidade interna de cada nodo fillo despois da división usando os valores únicos de X:
Tales como:
-
: representa a entropía do primeiro nodo fillo.
-
: representa a entropía do segundo nodo fillo.
\
Comezamos co primeiro nodo fillo:
\
E despois o segundo nodo fillo:
\
Finalmente, substituímos as entropías na fórmula de ganancia de información:
\
\
Como se dixo antes, o obxectivo dunha división de nodos é maximizar a ganancia de información e, polo tanto, minimizar a Entropía no nodo fillo resultante. Para iso, debemos tentar dividir o nodo con diferentes conxuntos de entradas e só mantemos a división que maximiza a ganancia de información:
Cando deixar de dividir
A división de nodos nas árbores de decisión é recursiva, polo que debe haber un criterio que poidamos utilizar para deter a división. Estes son algúns dos criterios máis aplicados:
-
Cando o nodo é puro: H(nodo) = 0. Non ten sentido dividir o nodo máis.
-
Número máximo de profundidade: Podemos establecer unha profundidade máxima que pode alcanzar o modelo, isto significa que aínda que o nodo non sexa puro a división está detida.
-
Número mínimo de mostras por nodo: Tamén podemos establecer un número mínimo de de mostras por nodo. Se o número de mostras por nodo é igual a entón deixamos de dividir aínda que o nodo non sexa puro.
Ao final do adestramento (a división), cada nodo que depende do final da árbore de decisión chámase "Folla", porque non é unha raíz de ningunha subárbore. Cada folla representará o rendemento da clase con máis mostras.
Conclusión
A árbore de decisións é un dos algoritmos de aprendizaxe automática máis famosos pola súa eficiencia, o seu fondo intuitivo e a súa sinxela implementación. Este algoritmo tamén se pode usar con variables numéricas independentes (Árbore de decisión gaussiana) e tamén se pode estender para resolver tarefas de regresión.