Stromy rozhodnutí jsou oblíbeným algoritmem používaným pro klasifikační i regresní úlohy. Fungují tak, že rekurzivně rozdělují data do podmnožin na základě funkcí, které nejlépe oddělují cílovou proměnnou.
Kroky k předpovědi a zvládnutí rozhodování
1. Stavba stromů
-
Kořenový uzel: Začíná s celou datovou sadou.
-
Feature Selection: Vybírá nejlepší funkci pro rozdělení dat do podmnožin. „Nejlepší“ vlastnost je určena kritériem (jako nečistota Gini nebo informační zisk).
-
Rozdělení: Rozdělí data do podmnožin na základě hodnot zvoleného prvku.
-
Rekurzivní dělení: Pokračuje v tomto procesu pro každou podmnožinu, vytváří větve nebo uzly, dokud nejsou splněna určitá kritéria zastavení (jako je dosažení maximální hloubky nebo příliš málo vzorků).
2. Rozhodování a předvídání
-
Traversal: Při vytváření předpovědí pro nová data prochází strom na základě hodnot prvků pro daný datový bod.
-
Vyhodnocení uzlů: V každém uzlu testuje hodnotu prvku oproti prahové hodnotě a pohybuje se po stromě dolů po příslušné větvi.
-
Listové uzly: Nakonec dosáhne listového uzlu, který poskytuje konečnou předpověď nebo rozhodnutí.
3. Zacházení s kategorickými a číselnými funkcemi
-
U kategorických prvků se rozhodovací stromy mohou jednoduše rozdělit na základě různých kategorií.
-
U numerických prvků zkouší rozhodovací stromy různé prahové hodnoty pro optimální rozdělení dat.
4. Zacházení s přemontováním
- Rozhodovací stromy jsou náchylné k nadměrnému vybavení. Techniky, jako je prořezávání, omezení hloubky stromu nebo nastavení minimálního počtu vzorků potřebných k rozdělení uzlu, pomáhají předcházet nadměrnému vybavení.
5. Důvěra a pravděpodobnost předpovědi
- Při klasifikaci mohou rozhodovací stromy poskytovat pravděpodobnosti tříd založené na distribuci vzorků v uzlech listů. Pro regresi poskytuje kontinuální výstup na základě průměrné nebo většinové hodnoty v listových uzlech.
6. Výklad
- Jednou z významných výhod rozhodovacích stromů je jejich interpretovatelnost. Jsou snadno vizualizovatelné a srozumitelné, což umožňuje nahlédnout do toho, které funkce jsou při rozhodování nejdůležitější.
7. Metody souboru
- Rozhodovací stromy lze kombinovat v souborových metodách, jako jsou náhodné lesy nebo zesílení gradientu, aby se zlepšil výkon a robustnost.
Rozhodovací stromy nabízejí přímý, ale výkonný přístup k modelování složitých vztahů v rámci dat. Mohou se však potýkat s určitými typy dat, která se špatně rozdělují na základě jednoduchých rozhodovacích hranic nebo pokud existují hlučné nebo irelevantní funkce.