Որոշման ծառերը հանրաճանաչ ալգորիթմ են, որն օգտագործվում է ինչպես դասակարգման, այնպես էլ ռեգեսիայի առաջադրանքների համար: Նրանք աշխատում են՝ ռեկուրսիվորեն բաժանելով տվյալները ենթաբազմությունների՝ հիմնված հատկանիշների վրա, որոնք լավագույնս առանձնացնում են թիրախային փոփոխականը:
Քայլեր՝ կանխատեսումներ անելու և որոշումներ կայացնելու համար
1. Ծառի կառուցում
-
Արմատային հանգույց. սկսվում է ամբողջ տվյալներից:
-
Առանձնահատկությունների ընտրություն. այն ընտրում է լավագույն հատկանիշը՝ տվյալները ենթաբազմությունների բաժանելու համար: «Լավագույն» հատկանիշը որոշվում է չափանիշով (օրինակ՝ Ջինիի անմաքրությունը կամ տեղեկատվության ստացումը):
-
Պառակտում. տվյալները բաժանում է ենթաբազմությունների՝ հիմնվելով ընտրված հատկանիշի արժեքների վրա:
-
Recursive Splitting. Շարունակում է այս գործընթացը յուրաքանչյուր ենթաբազմության համար՝ ստեղծելով ճյուղեր կամ հանգույցներ, մինչև որոշակի դադարեցման չափանիշները բավարարվեն (օրինակ՝ առավելագույն խորության հասնելը կամ շատ քիչ նմուշներ ունենալը):
2. Որոշումների կայացում և կանխատեսում
-
Անցում. Նոր տվյալների համար կանխատեսումներ անելիս այն անցնում է ծառի վրա՝ հիմնվելով տվյալ տվյալների կետի հատկանիշների արժեքների վրա:
-
Հանգույցի գնահատում. յուրաքանչյուր հանգույցում այն ստուգում է հատկանիշի արժեքը շեմի համեմատ և շարժվում է ծառի վրա՝ հետևելով համապատասխան ճյուղին:
-
Տերևային հանգույցներ. Ի վերջո, այն հասնում է տերևային հանգույցի, որն ապահովում է վերջնական կանխատեսումը կամ որոշումը:
3. Կատեգորիաների և թվային հատկանիշների կառավարում
-
Կատեգորիկ հատկանիշների համար որոշման ծառերը կարող են պարզապես բաժանվել տարբեր կատեգորիաների հիման վրա:
-
Թվային հատկանիշների համար որոշման ծառերը փորձում են տարբեր շեմեր՝ տվյալները օպտիմալ կերպով բաժանելու համար:
4. Գերմոնտաժման կառավարում
- Որոշման ծառերը հակված են չափից ավելի հարմարեցման: Տեխնիկաները, ինչպիսիք են էտումը, ծառի խորությունը սահմանափակելը կամ հանգույցը պառակտելու համար պահանջվող նմուշների նվազագույն քանակի սահմանումը, օգնում են կանխել ավելորդ տեղադրումը:
5. Կանխատեսման վստահություն և հավանականություն
- Դասակարգման մեջ որոշման ծառերը կարող են ապահովել դասի հավանականություններ՝ հիմնված տերևային հանգույցներում նմուշների բաշխման վրա: Ռեգրեսիայի համար այն ապահովում է շարունակական արդյունք՝ հիմնված տերևային հանգույցների միջին կամ մեծամասնության արժեքի վրա:
6. Մեկնաբանելիություն
- Որոշման ծառերի նշանակալի առավելություններից մեկը դրանց մեկնաբանելիությունն է: Դրանք հեշտությամբ պատկերացվում և ընկալվում են, ինչը թույլ է տալիս պատկերացում կազմել, թե որ հատկանիշներն են ամենակարևորը որոշումներ կայացնելիս:
7. Անսամբլային մեթոդներ
- Որոշման ծառերը կարող են համակցվել անսամբլային մեթոդների մեջ, ինչպիսիք են Random Forests-ը կամ Gradient Boosting-ը՝ բարելավելու կատարողականությունը և ամրությունը:
Որոշման ծառերն առաջարկում են պարզ, բայց հզոր մոտեցում տվյալների ներսում բարդ հարաբերությունների մոդելավորման համար: Այնուամենայնիվ, նրանք կարող են պայքարել որոշակի տեսակի տվյալների հետ, որոնք լավ չեն բաժանվում որոշման պարզ սահմանների հիման վրա կամ երբ կան աղմկոտ կամ անհամապատասխան հատկանիշներ: