Els arbres de decisió són un algorisme popular utilitzat tant per a tasques de classificació com per a tasques de regressió. Funcionen particionant recursivament les dades en subconjunts basats en característiques que separen millor la variable objectiu.
Passos per fer prediccions i gestionar la presa de decisions
1. Construcció d'arbres
-
Node arrel: comença amb tot el conjunt de dades.
-
Selecció de funcions: selecciona la millor característica per dividir les dades en subconjunts. La característica "millor" està determinada per un criteri (com ara la impuresa de Gini o el guany d'informació).
-
Divisió: divideix les dades en subconjunts en funció dels valors de la característica escollida.
-
Divisió recursiva: Continua aquest procés per a cada subconjunt, creant ramificacions o nodes fins que es compleixen determinats criteris d'aturada (com arribar a una profunditat màxima o tenir massa poques mostres).
2. Presa de decisions i predicció
-
Travessia: quan es fa prediccions per a dades noves, travessa l'arbre en funció dels valors de les característiques d'aquest punt de dades.
-
Avaluació del node: a cada node, prova el valor de la característica contra un llindar i es mou per l'arbre seguint la branca corresponent.
-
Nodes de fulla: finalment, arriba a un node de fulla que proporciona la predicció o decisió final.
3. Maneig de les característiques numèriques i categòriques
-
Per a característiques categòriques, els arbres de decisió es poden dividir simplement en funció de diferents categories.
-
Per a les característiques numèriques, els arbres de decisió intenten diferents llindars per dividir les dades de manera òptima.
4. Manejar el sobreajust
- Els arbres de decisió són propensos a sobreajustar-se. Tècniques com la poda, la limitació de la profunditat de l'arbre o l'establiment d'un nombre mínim de mostres necessàries per dividir un node ajuden a prevenir el sobreajustament.
5. Confiança i probabilitat de la predicció
- En classificació, els arbres de decisió poden proporcionar probabilitats de classe basades en la distribució de mostres en nodes fulla. Per a la regressió, proporciona una sortida contínua basada en el valor mitjà o majoritari dels nodes fulla.
6. Interpretabilitat
- Un dels avantatges significatius dels arbres de decisió és la seva interpretabilitat. Es visualitzen i s'entenen fàcilment, cosa que permet conèixer quines funcions són més importants per prendre decisions.
7. Mètodes de conjunt
- Els arbres de decisió es poden combinar en mètodes de conjunt com els boscos aleatoris o l'augment del gradient per millorar el rendiment i la robustesa.
Els arbres de decisió ofereixen un enfocament senzill però potent per modelar relacions complexes dins de les dades. Tanmateix, poden tenir problemes amb certs tipus de dades que no es divideixen bé en funció dels límits de decisió simples o quan hi ha funcions sorolloses o irrellevants.