Introduzione
Gli alberi decisionali (DT) sono un metodo di apprendimento supervisionato non parametrico utilizzato per la classificazione e la regressione. L'obiettivo è creare un modello che preveda il valore di una variabile target apprendendo semplici regole decisionali dedotte dalle caratteristiche dei dati.
Entropia
L'obiettivo della formazione è trovare le migliori suddivisioni nei nodi per trovare l'albero più ottimale. Le suddivisioni vengono effettuate utilizzando alcuni criteri come: Entropia.
Esistono molte definizioni di entropia come:
-
L'entropia corrisponde alla quantità di informazioni contenute in una fonte di informazione.
-
L'entropia può anche essere vista come la casualità o la misurazione della sorpresa in un insieme.
-
L'entropia è una metrica che misura l'imprevedibilità o l'impurità nel sistema.
Negli alberi decisionali considereremo l'entropia come la misura della purezza all'interno di un nodo. L'obiettivo del modello dell'albero decisionale è ridurre l'entropia dei nodi ad ogni divisione:
Pertanto, vogliamo massimizzare la differenza tra l'entropia del nodo genitore e l'entropia dei nodi figli. Questa differenza è chiamata guadagno di informazioni.
L'Entropia di un insieme è matematicamente formulata come segue:
Guadagno di informazioni
Il guadagno di informazioni è la differenza tra l'entropia del nodo genitore e la somma ponderata delle entropie dei nodi figli, e quindi può essere formulato come segue:
Dove:
-
è l'entropia.
-
è la popolazione prima della divisione, rappresenta il nodo genitore.
-
è la variabile che vogliamo utilizzare per la suddivisione.
-
è un valore univoco di X.
-
è una lista divisa con solo valori .
facciamo un esempio corretto:
Calcoleremo il guadagno di informazioni quando dividiamo il nodo genitore utilizzando i valori di X:
\
Innanzitutto, calcoliamo l'entropia del nodo genitore:
\
Quindi, calcoleremo la probabilità interna di ciascun nodo figlio dopo la divisione utilizzando i valori univoci di X:
Ad esempio:
-
: rappresenta l'entropia del primo nodo figlio.
-
: rappresenta l'entropia del secondo nodo figlio.
\
Iniziamo con il primo nodo figlio:
\
E poi il secondo nodo figlio:
\
Infine, sostituiamo le entropie nella formula del guadagno di informazioni:
\
\
Come affermato in precedenza, l'obiettivo della suddivisione di un nodo è massimizzare il guadagno di informazioni e quindi ridurre al minimo l'entropia nel nodo figlio risultante. Per fare ciò, dobbiamo provare a dividere il nodo con diversi set di input e manteniamo solo la divisione che massimizza il guadagno di informazioni:
Quando smettere di dividere
La suddivisione dei nodi negli alberi decisionali è ricorsiva, quindi deve esserci un criterio che possiamo utilizzare per interrompere la suddivisione. Questi alcuni dei criteri più implementati:
-
Quando il nodo è puro: H(nodo) = 0. È inutile dividere ulteriormente il nodo.
-
Numero massimo di profondità: Possiamo impostare una profondità massima che il modello può raggiungere, significa che anche se il nodo non è puro la scissione viene interrotta.
-
Numero minimo di campioni per nodo: Possiamo anche impostare un numero minimo di campioni per nodo. Se il numero di campioni per nodo è pari a allora interrompiamo la suddivisione anche se il nodo non è puro.
Alla fine dell'addestramento (la suddivisione), ogni nodo che si basa sulla fine dell'albero decisionale viene chiamato "Foglia", perché non è la radice di nessun sottoalbero. Ogni foglia rappresenterà la classe con il maggior numero di campioni.
Conclusione
L'albero decisionale è uno degli algoritmi di machine learning più famosi grazie alla sua efficienza, al suo background intuitivo e alla sua semplice implementazione. Questo algoritmo può essere ulteriormente utilizzato con variabili numeriche indipendenti (albero decisionale gaussiano) e può essere esteso anche per risolvere compiti di regressione.