Lēmumu koki ir populārs algoritms, ko izmanto gan klasifikācijas, gan regresijas uzdevumiem. Tie darbojas, rekursīvi sadalot datus apakškopās, pamatojoties uz līdzekļiem, kas vislabāk atdala mērķa mainīgo.
Pasākumi, lai prognozētu un pieņemtu lēmumus
1. Koku celtniecība
-
Saknes mezgls: sākas ar visu datu kopu.
-
Funkciju atlase: tā atlasa labāko līdzekli, lai sadalītu datus apakškopās. "Labāko" funkciju nosaka kāds kritērijs (piemēram, Džini piemaisījums vai informācijas ieguvums).
-
Sadalīšana: sadala datus apakškopās, pamatojoties uz izvēlētā objekta vērtībām.
-
Rekursīvā sadalīšana: turpina šo procesu katrai apakškopai, veidojot zarus vai mezglus, līdz tiek izpildīti noteikti apturēšanas kritēriji (piemēram, tiek sasniegts maksimālais dziļums vai ir pārāk maz paraugu).
2. Lēmumu pieņemšana un prognozēšana
-
Apmeklēšana: veicot prognozes jauniem datiem, tas šķērso koku, pamatojoties uz šī datu punkta objektu vērtībām.
-
Mezgla novērtējums: katrā mezglā tā pārbauda objekta vērtību pret slieksni un virzās lejup pa koku pēc atbilstošā zara.
-
Lapu mezgli: galu galā tas sasniedz lapas mezglu, kas nodrošina galīgo prognozi vai lēmumu.
3. Kategorisko un skaitlisko funkciju apstrāde
-
Kategoriskām pazīmēm lēmumu kokus var vienkārši sadalīt, pamatojoties uz dažādām kategorijām.
-
Skaitliskām pazīmēm lēmumu koki izmēģina dažādus sliekšņus, lai optimāli sadalītu datus.
4. Pārmērīga uzstādīšana
- Lēmumu koki ir pakļauti pārmērībai. Tādas metodes kā atzarošana, koka dziļuma ierobežošana vai minimālā paraugu skaita iestatīšana, kas nepieciešams mezgla sadalīšanai, palīdz novērst pārmērīgu pielāgošanu.
5. Prognožu pārliecība un varbūtība
- Klasifikācijā lēmumu koki var nodrošināt klases varbūtības, pamatojoties uz paraugu sadalījumu lapu mezglos. Regresijai tas nodrošina nepārtrauktu izvadi, pamatojoties uz vidējo vai vairākuma vērtību lapu mezglos.
6. Interpretējamība
- Viena no būtiskām lēmumu koku priekšrocībām ir to interpretējamība. Tie ir viegli vizualizēti un saprotami, ļaujot gūt ieskatu par to, kuras funkcijas ir vissvarīgākās lēmumu pieņemšanā.
7. Ansambļa metodes
- Lēmumu kokus var apvienot tādās ansambļa metodēs kā Random Forests vai Gradient Boosting, lai uzlabotu veiktspēju un noturību.
Lēmumu koki piedāvā vienkāršu, bet jaudīgu pieeju datu sarežģītu attiecību modelēšanai. Tomēr viņiem var rasties grūtības ar noteiktiem datu veidiem, kas nav labi sadalīti, pamatojoties uz vienkāršām lēmumu robežām vai ja ir trokšņaini vai neatbilstoši elementi.