Stromy rozhodnutí sú obľúbeným algoritmom používaným pre klasifikačné aj regresné úlohy. Fungujú tak, že rekurzívne rozdeľujú údaje do podmnožín na základe funkcií, ktoré najlepšie oddeľujú cieľovú premennú.
Kroky na predpovedanie a zvládnutie rozhodovania
1. Konštrukcia stromu
-
Koreňový uzol: Začína celým súborom údajov.
-
Výber funkcie: Vyberie najlepšiu funkciu na rozdelenie údajov do podmnožín. "Najlepšia" vlastnosť je určená kritériom (ako Gini nečistota alebo zisk informácií).
-
Rozdelenie: Rozdeľuje údaje do podmnožín na základe hodnôt vybranej funkcie.
-
Rekurzívne delenie: Pokračuje v tomto procese pre každú podmnožinu, pričom sa vytvárajú vetvy alebo uzly, kým nie sú splnené určité kritériá zastavenia (napríklad dosiahnutie maximálnej hĺbky alebo príliš málo vzoriek).
2. Rozhodovanie a predpovedanie
-
Traversal: Pri vytváraní predpovedí pre nové údaje prechádza stromom na základe hodnôt funkcií pre daný údajový bod.
-
Vyhodnotenie uzla: V každom uzle testuje hodnotu prvku oproti prahu a posúva sa po strome nadol po príslušnej vetve.
-
Listové uzly: Nakoniec dosiahne listový uzol, ktorý poskytuje konečnú predpoveď alebo rozhodnutie.
3. Zaobchádzanie s kategorickými a číselnými funkciami
-
Pre kategorické funkcie sa rozhodovacie stromy môžu jednoducho rozdeliť na základe rôznych kategórií.
-
V prípade numerických prvkov skúšajú rozhodovacie stromy rôzne prahové hodnoty na optimálne rozdelenie údajov.
4. Zaobchádzanie s nadmernou montážou
- Rozhodovacie stromy sú náchylné na nadmernú montáž. Techniky, ako je prerezávanie, obmedzenie hĺbky stromu alebo nastavenie minimálneho počtu vzoriek potrebných na rozdelenie uzla, pomáhajú predchádzať nadmernému osadeniu.
5. Dôvera predpovede a pravdepodobnosť
- Pri klasifikácii môžu rozhodovacie stromy poskytnúť pravdepodobnosti triedy založené na distribúcii vzoriek v listových uzloch. Pre regresiu poskytuje nepretržitý výstup na základe priemernej alebo väčšinovej hodnoty v listových uzloch.
6. Výklad
- Jednou z významných výhod rozhodovacích stromov je ich interpretovateľnosť. Sú ľahko vizualizovateľné a zrozumiteľné, čo umožňuje prehľad o tom, ktoré funkcie sú najdôležitejšie pri rozhodovaní.
7. Metódy súboru
- Rozhodovacie stromy možno kombinovať v súborových metódach, ako sú náhodné lesy alebo zosilnenie gradientu, aby sa zlepšil výkon a robustnosť.
Rozhodovacie stromy ponúkajú priamy, ale výkonný prístup k modelovaniu zložitých vzťahov v rámci údajov. Môžu však zápasiť s určitými typmi údajov, ktoré sa nerozdelia dobre na základe jednoduchých hraníc rozhodovania, alebo keď existujú hlučné alebo irelevantné funkcie.