Ներածություն
Որոշումների ծառերը (DT) ոչ պարամետրային վերահսկվող ուսուցման մեթոդ են, որն օգտագործվում է դասակարգման և ռեգրեսիայի համար: Նպատակն է ստեղծել մի մոդել, որը կանխատեսում է թիրախային փոփոխականի արժեքը՝ սովորելով որոշման պարզ կանոններ, որոնք ենթադրվում են տվյալների առանձնահատկություններից:
Էնտրոպիա
Թրեյնինգի նպատակն է գտնել հանգույցներում լավագույն ճեղքերը՝ ամենաօպտիմալ ծառը գտնելու համար: Բաժանումները կատարվում են օգտագործելով որոշ չափանիշներ, ինչպիսիք են՝ Էնտրոպիան:
Կան էնտրոպիայի բազմաթիվ սահմանումներ, ինչպիսիք են.
-
Էնտրոպիան համապատասխանում է տեղեկատվության աղբյուրում պարունակվող տեղեկատվության քանակին:
-
Էնտրոպիան կարող է դիտվել նաև որպես պատահականություն կամ անակնկալի չափում հավաքածուում:
-
Էնտրոպիան չափիչ է, որը չափում է համակարգի անկանխատեսելիությունը կամ անմաքրությունը:
Որոշման ծառերում մենք կդիտարկենք էնտրոպիան որպես հանգույցի ներսում մաքրության չափ: Որոշումների ծառի մոդելի նպատակն է նվազեցնել հանգույցների էնտրոպիան յուրաքանչյուր բաժանման ժամանակ.
Այսպիսով, մենք ցանկանում ենք առավելագույնի հասցնել տարբերությունը մայր հանգույցի էնտրոպիայի և երեխայի հանգույցների էնտրոպիայի միջև: Այս տարբերությունը կոչվում է Տեղեկատվության ձեռքբերում:
բազմության էնտրոպիան մաթեմատիկորեն ձևակերպված է հետևյալ կերպ.
Տեղեկատվության ձեռքբերում
Տեղեկատվական շահույթը տարբերությունն է մայր հանգույցի էնտրոպիայի******** կշռված**** էնտրոպիաների*** էնտրոպիաների միջև, և, հետևաբար, այն կարող է ձևակերպվել հետևյալ կերպ.
որտեղ:
-
-ը էնտրոպիան է:
-
-ը պոպուլյացիան է մինչև բաժանումը, այն ներկայացնում է մայր հանգույցը:
-
-ն այն փոփոխականն է, որը մենք ցանկանում ենք օգտագործել բաժանման համար:
-
-ը X-ի եզակի արժեքն է:
-
-ը բաժանված ցուցակ է միայն արժեքներով:
բերենք պատշաճ օրինակ.
Մենք հաշվարկելու ենք Տեղեկատվության շահույթը, երբ բաժանում ենք մայր հանգույցը՝ օգտագործելով X-ի արժեքները.
\
Նախ, մենք հաշվարկում ենք մայր հանգույցի էնտրոպիան.
\
Այնուհետև մենք հաշվարկելու ենք յուրաքանչյուր երեխայի հանգույցի ներքին հավանականությունը բաժանումից հետո՝ օգտագործելով X-ի եզակի արժեքները.
Ինչպիսիք են.
-
: ներկայացնում է առաջին երեխայի հանգույցի էնտրոպիան:
-
: ներկայացնում է երկրորդ զավակ հանգույցի էնտրոպիան:
\
Մենք սկսում ենք առաջին երեխայի հանգույցից.
\
Եվ հետո երկրորդ երեխայի հանգույցը.
\
Ի վերջո, մենք փոխարինում ենք էնտրոպիաները տեղեկատվության ձեռքբերման բանաձևում.
\
\
Ինչպես նշվեց նախկինում, հանգույցի բաժանման նպատակն է առավելագույնի հասցնել Տեղեկատվության շահույթը և, այդպիսով, նվազագույնի հասցնել էնտրոպիան ստացված մանկական հանգույցում: Դա անելու համար մենք պետք է փորձենք բաժանել հանգույցը մուտքերի տարբեր խմբերով՝ , և մենք պահում ենք միայն այն բաժանումը, որը առավելագույնի է հասցնում տեղեկատվության շահույթը.
Երբ դադարեցնել բաժանումը
Որոշման ծառերում բաժանվող հանգույցը ռեկուրսիվ է, ուստի պետք է լինի չափանիշ, որը մենք կարող ենք օգտագործել՝ բաժանումը դադարեցնելու համար: Սրանք ամենաշատ իրականացվող չափանիշներից մի քանիսն են.
-
Երբ հանգույցը մաքուր է. H(հանգույց) = 0: Անիմաստ է հանգույցն այլևս բաժանել:
-
Խորության առավելագույն քանակը. Մենք կարող ենք սահմանել առավելագույն խորություն, որին կարող է հասնել մոդելը, դա նշանակում է, որ նույնիսկ եթե հանգույցը մաքուր չէ, բաժանումը դադարեցվում է:
-
Նմուշների նվազագույն քանակը յուրաքանչյուր հանգույցում. Մենք կարող ենք նաև սահմանել յուրաքանչյուր հանգույցի համար նմուշների նվազագույն քանակը : Եթե յուրաքանչյուր հանգույցի նմուշների թիվը հավասար է -ի, ապա մենք դադարում ենք բաժանվել, նույնիսկ եթե հանգույցը մաքուր չէ:
Ուսուցման ավարտին (բաժանումը), յուրաքանչյուր հանգույց, որը հենվում է որոշման ծառի վերջի վրա, կոչվում է «Տերեւ», քանի որ այն որևէ ենթածառի արմատ չէ: Յուրաքանչյուր տերեւ կներկայացնի ամենաշատ նմուշներ ունեցող դասի բերքատվությունը:
Եզրակացություն
Որոշումների ծառը մեքենայական ուսուցման ամենահայտնի ալգորիթմներից մեկն է իր արդյունավետության, ինտուիտիվ ֆոնի և պարզ իրականացման շնորհիվ: Այս ալգորիթմը կարող է հետագայում օգտագործվել թվային անկախ փոփոխականների հետ (Gaussian Decision Tree), և այն կարող է ընդլայնվել՝ լուծելու նաև ռեգրեսիայի առաջադրանքները: