Հասկանալով վերահսկվող և չվերահսկվող ուսուցումը

Թարմացվել է September 27, 2024 2 Րոպեներ կարդացեք

Վերահսկվող ուսուցում

Վերահսկվող ուսուցումը ներառում է մոդելի ուսուցում պիտակավորված տվյալների բազայի վրա: Պիտակավորված տվյալները նշանակում են, որ մուտքային տվյալները զուգակցված են ճիշտ ելքի հետ: Նպատակն այն է, որ մոդելը սովորի մուտքերի և ելքերի միջև քարտեզագրումը կամ հարաբերությունները, որպեսզի կարողանա կանխատեսումներ անել կամ ճշգրիտ դասակարգել նոր, չտեսնված տվյալները: Վերահսկվող ուսուցման երկու հիմնական տեսակ կա.

Դասակարգում. Սա ներառում է կատեգորիայի պիտակի կանխատեսում: Օրինակ՝ որոշել, թե փոստը սպամ է, թե ոչ՝ սպամ՝ հիմնվելով որոշակի հատկանիշների վրա (օրինակ՝ օգտագործված բառերը, ուղարկողը և այլն): Դասակարգման համար օգտագործվում են այնպիսի ալգորիթմներ, ինչպիսիք են Աջակցող վեկտորային մեքենաները (SVM), որոշումների ծառերը և նեյրոնային ցանցերը:
Ռեգեսիա. Ներառում է շարունակական արժեք կանխատեսում: Օրինակ, տան գինը կանխատեսելը` հիմնվելով նրա առանձնահատկությունների վրա, ինչպիսիք են տարածքը, ննջասենյակների քանակը և այլն: Ռեգրեսիայի առաջադրանքների համար օգտագործվում են այնպիսի ալգորիթմներ, ինչպիսիք են Գծային ռեգրեսիան, պատահական անտառը և գրադիենտի բարձրացումը:

Չվերահսկվող ուսուցում

Չվերահսկվող ուսուցումը ներառում է մոդելի ուսուցում չպիտակավորված տվյալների բազայի վրա: Այստեղ ալգորիթմը փորձում է տվյալների մեջ գտնել թաքնված օրինաչափություններ կամ ներքին կառուցվածքներ՝ առանց որևէ հստակ վերահսկողության: Նպատակն է ուսումնասիրել տվյալները, հասկանալ դրանց կառուցվածքը և իմաստալից պատկերացումներ ստանալ: Չվերահսկվող ուսուցման ընդհանուր տեսակները ներառում են.

Կլաստերավորում. Նմանատիպ տվյալների կետերի խմբավորում՝ հիմնվելով որոշակի հատկանիշների կամ նմանությունների վրա: Օրինակ՝ հաճախորդների սեգմենտների կլաստերավորում՝ հիմնված նրանց գնման վարքագծի վրա՝ օգտագործելով ալգորիթմներ, ինչպիսիք են K-Means-ը կամ Hierarchical Clustering-ը:
Չափերի կրճատում. Նվազեցնելով գործառույթների քանակը՝ պահպանելով էական տեղեկատվությունը: Հիմնական բաղադրիչի վերլուծությունը (PCA) և t-Distributed Stochastic Neighbor Embedding (t-SNE) օգտագործվում են ավելի ցածր չափերի տարածության մեջ բարձրաչափ տվյալները պատկերացնելու համար:

Երբ օգտագործել յուրաքանչյուրը

Վերահսկվող ուսուցումն օգտագործվում է, երբ դուք ունեք պիտակավորված տվյալներ և ցանկանում եք կանխատեսել կամ դասակարգել ապագա օրինակները՝ հիմնվելով այդ պիտակավորված տվյալների վրա: Օրինակ, եթե դուք ունեք պատմական տվյալներ հաճախորդների գնումների վերաբերյալ և ցանկանում եք կանխատեսել ապագա գնումները, վերահսկվող ուսուցումը հարմար է:
Չվերահսկվող ուսուցումն օգտագործվում է, երբ դուք չունեք պիտակավորված տվյալներ կամ երբ ցանկանում եք ուսումնասիրել և հասկանալ տվյալների հիմքում ընկած կառուցվածքը: Օրինակ՝ անոմալիաների հայտնաբերման կամ թաքնված օրինաչափությունների հայտնաբերման մեծ տվյալների հավաքածուներում:

Երբեմն, ուսուցման երկու տեսակների համակցությունը, որը հայտնի է որպես կիսամյակային վերահսկվող ուսուցում, կարող է օգտագործվել, երբ դուք ունեք փոքր քանակությամբ պիտակավորված և մեծ քանակությամբ չպիտակավորված տվյալներ, ինչը թույլ է տալիս մոդելներին օգտվել տեղեկատվության երկու աղբյուրներից: .