Drzewa decyzyjne to popularny algorytm używany zarówno do zadań klasyfikacji, jak i regresji. Działają poprzez rekurencyjny podział danych na podzbiory w oparciu o cechy, które najlepiej oddzielają zmienną docelową.
Kroki umożliwiające przewidywanie i podejmowanie decyzji
1. Konstrukcja drzewa
-
Węzeł główny: zaczyna się od całego zestawu danych.
-
Wybór funkcji: Wybiera najlepszą funkcję w celu podzielenia danych na podzbiory. „Najlepsza” cecha jest określana na podstawie kryterium (takiego jak zanieczyszczenie Giniego lub przyrost informacji).
-
Dzielenie: Dzieli dane na podzbiory w oparciu o wartości wybranej cechy.
-
Dzielenie rekurencyjne: Kontynuuje ten proces dla każdego podzbioru, tworząc gałęzie lub węzły, aż do spełnienia określonych kryteriów zatrzymania (takich jak osiągnięcie maksymalnej głębokości lub posiadanie zbyt małej liczby próbek).
2. Podejmowanie decyzji i przewidywanie
-
Traversal: Podczas przewidywania nowych danych przechodzi przez drzewo w oparciu o wartości funkcji dla tego punktu danych.
-
Ocena węzła: w każdym węźle sprawdza wartość cechy pod kątem progu i przesuwa się w dół drzewa, podążając za odpowiednią gałęzią.
-
Węzły liści: ostatecznie dociera do węzła liścia, który zapewnia ostateczną prognozę lub decyzję.
3. Obsługa cech jakościowych i numerycznych
-
W przypadku cech kategorycznych drzewa decyzyjne można po prostu podzielić na różne kategorie.
-
W przypadku cech numerycznych drzewa decyzyjne próbują różnych progów, aby optymalnie podzielić dane.
4. Postępowanie z nadmiernym dopasowaniem
- Drzewa decyzyjne są podatne na nadmierne dopasowanie. Techniki takie jak przycinanie, ograniczanie głębokości drzewa lub ustawianie minimalnej liczby próbek wymaganych do podziału węzła pomagają zapobiegać nadmiernemu dopasowaniu.
5. Pewność i prawdopodobieństwo przewidywania
- W klasyfikacji drzewa decyzyjne mogą zapewnić prawdopodobieństwa klas w oparciu o rozkład próbek w węzłach liści. W przypadku regresji zapewnia ciągłe dane wyjściowe w oparciu o średnią lub większość wartości w węzłach liści.
6. Interpretowalność
- Jedną z istotnych zalet drzew decyzyjnych jest ich interpretowalność. Można je łatwo zwizualizować i zrozumieć, co pozwala uzyskać wgląd w to, które funkcje są najważniejsze przy podejmowaniu decyzji.
7. Metody składania
- Drzewa decyzyjne można łączyć w metody zespołowe, takie jak losowe lasy lub wzmacnianie gradientu, aby poprawić wydajność i niezawodność.
Drzewa decyzyjne oferują proste, ale skuteczne podejście do modelowania złożonych relacji w danych. Mogą jednak mieć problemy z pewnymi typami danych, które nie dzielą się dobrze w oparciu o proste granice decyzyjne lub gdy występują hałaśliwe lub nieistotne funkcje.