Дрэвы рашэнняў - гэта папулярны алгарытм, які выкарыстоўваецца як для задач класіфікацыі, так і для задач рэгрэсіі. Яны працуюць шляхам рэкурсіўнага падзелу даных на падмноствы на аснове функцый, якія лепш за ўсё аддзяляюць мэтавую зменную.
Крокі для прагназавання і прыняцця рашэнняў
1. Дрэва Будаўніцтва
-
Каранёвы вузел: пачынаецца з усяго набору даных.
-
Выбар функцый: ён выбірае найлепшую функцыю для падзелу даных на падмноствы. «Найлепшая» асаблівасць вызначаецца крытэрам (напрыклад, прымешка Джыні або ўзмацненне інфармацыі).
-
Раздзяленне: падзяляе даныя на падмноствы ў залежнасці ад значэнняў выбранай функцыі.
-
Рэкурсіўнае раздзяленне: працягвае гэты працэс для кожнага падмноства, ствараючы галіны або вузлы, пакуль не будуць выкананы пэўныя крытэрыі спынення (напрыклад, дасягненне максімальнай глыбіні або занадта малая колькасць узораў).
2. Прыняцце рашэнняў і прагназаванне
-
Абыход: пры прагназаванні новых даных ён праходзіць па дрэве на аснове значэнняў функцый для гэтай кропкі даных.
-
Ацэнка вузла: у кожным вузле ён правярае значэнне функцыі адносна парогавага значэння і рухаецца ўніз па дрэве пасля адпаведнай галіны.
-
Ліставыя вузлы: у рэшце рэшт, ён дасягае ліставога вузла, які забяспечвае канчатковы прагноз або рашэнне.
3. Апрацоўка катэгарыяльных і лікавых функцый
-
Для катэгарыяльных прыкмет дрэвы рашэнняў можна проста падзяліць на аснове розных катэгорый.
-
Для лікавых функцый дрэвы рашэнняў выпрабоўваюць розныя парогі для аптымальнага падзелу даных.
4. Апрацоўка пераабсталявання
- Дрэвы рашэнняў схільныя да пераабсталявання. Такія метады, як абразанне, абмежаванне глыбіні дрэва або ўсталяванне мінімальнай колькасці ўзораў, неабходных для падзелу вузла, дапамагаюць прадухіліць празмернае абсталяванне.
5. Упэўненасць і верагоднасць прагнозу
- У класіфікацыі дрэвы рашэнняў могуць забяспечваць імавернасці класа на аснове размеркавання выбарак у ліставых вузлах. Для рэгрэсіі ён забяспечвае бесперапынны вывад на аснове сярэдняга або большасці значэнняў у ліставых вузлах.
6. Інтэрпрэтацыя
— Адна з істотных пераваг дрэў рашэнняў — іх інтэрпрэтабельнасць. Іх лёгка візуалізаваць і зразумець, што дазваляе зразумець, якія функцыі найбольш важныя для прыняцця рашэнняў.
7. Ансамблевыя метады
- Дрэвы рашэнняў можна камбінаваць у ансамблевых метадах, такіх як выпадковыя лясы або павышэнне градыенту, каб палепшыць прадукцыйнасць і трываласць.
Дрэвы рашэнняў прапануюць просты, але магутны падыход да мадэлявання складаных сувязяў у дадзеных. Тым не менш, яны могуць змагацца з некаторымі тыпамі даных, якія дрэнна раздзяляюцца на аснове простых межаў прыняцця рашэнняў або калі ёсць шумныя або недарэчныя функцыі.