Erabakien zuhaitzak sailkapen eta erregresio zereginetarako erabiltzen den algoritmo ezaguna da. Datuak modu errekurtsiboan zatikatuz lan egiten dute xede-aldagaia hobekien bereizten duten ezaugarrietan oinarrituta azpimultzoetan.
Iragarpenak egiteko eta erabakiak hartzeko urratsak
1. Zuhaitz Eraikuntza
-
Erro-nodoa: datu multzo osoarekin hasten da.
-
Ezaugarrien hautaketa: datuak azpimultzoetan banatzeko ezaugarririk onena hautatzen du. Ezaugarri "onena" irizpide batek zehazten du (Gini ezpurutasuna edo informazio-irabazia bezalakoak).
-
Zatiketa: datuak azpimultzoetan banatzen ditu aukeratutako ezaugarriaren balioetan oinarrituta.
-
Zatiketa errekurtsiboa: prozesu honekin jarraitzen du azpimultzo bakoitzeko, adar edo nodoak sortuz geldialdi-irizpide batzuk bete arte (sakonera maximo batera iristea edo lagin gutxiegi izatea adibidez).
2. Erabakiak hartzea eta iragarpena
-
Zeharkaldia: datu berrien iragarpenak egitean, zuhaitza zeharkatzen du datu-puntu horren ezaugarrien balioetan oinarrituta.
-
Nodoen ebaluazioa: nodo bakoitzean, ezaugarriaren balioa probatzen du atalase baten aurrean eta zuhaitzean behera egiten du dagokion adarra jarraituz.
-
Hosto-nodoak: Azkenean, azken iragarpena edo erabakia ematen duen hosto-nodo batera iristen da.
3. Ezaugarri kategorikoak eta zenbakizkoak kudeatzea
-
Ezaugarri kategorikoetarako, erabaki-zuhaitzak kategoria ezberdinetan oinarrituta zatitu daitezke.
-
Zenbakizko ezaugarrietarako, erabaki-zuhaitzek atalase desberdinak probatzen dituzte datuak modu optimoan banatzeko.
4. Gehiegizko egokitzapena kudeatzea
- Erabaki-zuhaitzek gehiegi egokitzeko joera dute. Inausketa, zuhaitzaren sakonera mugatzea edo nodo bat zatitzeko beharrezkoa den gutxieneko lagin-kopurua ezartzea bezalako teknikek gehiegizko egokitzea saihesten laguntzen dute.
5. Iragarpenaren konfiantza eta probabilitatea
- Sailkapenean, erabaki-zuhaitzek klase probabilitateak eman ditzakete hosto-nodoetan laginen banaketan oinarrituta. Erregresiorako, hosto-nodoen batez besteko edo gehiengoaren balioan oinarritutako irteera etengabea eskaintzen du.
6. Interpretagarritasuna
- Erabaki-zuhaitzen abantaila esanguratsuetako bat interpretagarritasuna da. Erraz ikusten eta ulertzen dira, erabakiak hartzeko zein ezaugarri diren garrantzitsuenak jakiteko.
7. Ensemble metodoak
- Erabaki-zuhaitzak Random Forests edo Gradient Boosting bezalako multzo-metodoetan konbina daitezke errendimendua eta sendotasuna hobetzeko.
Erabaki-zuhaitzek ikuspegi zuzena baina indartsua eskaintzen dute datuen barruan erlazio konplexuak modelatzeko. Hala ere, baliteke erabaki-mug soiletan oinarrituta ondo banatzen ez diren datu mota batzuekin edo ezaugarri zaratatsuak edo garrantzirik gabekoak daudenean.