Կիսավերահսկվող ուսուցումը-ը մեքենայական ուսուցման պարադիգմ է, որն օգտագործում է և՛ պիտակավորված, և՛ չպիտակավորված տվյալները՝ մոդելներին պատրաստելու համար: Իրական աշխարհի սցենարների մեծ մասում պիտակավորված տվյալների ձեռքբերումը կարող է թանկ լինել, ժամանակատար կամ պարզապես դժվար՝ տարբեր սահմանափակումների պատճառով: Չպիտակավորված տվյալները, մյուս կողմից, հաճախ ավելի առատ են և ավելի հեշտ է ձեռք բերել: Կիսավերահսկվող ուսուցման նպատակն է առավելագույնս օգտագործել երկու տեսակի տվյալներ՝ մոդելի կատարողականությունը բարելավելու համար:
Օգտագործելով պիտակավորված և չպիտակավորված տվյալները
- Պիտակավորված և չպիտակավորված տվյալների համադրում. Հիմնական սկզբունքը ներառում է մոդելի ուսուցում
օգտագործելով պիտակավորված տվյալների ավելի փոքր հավաքածու և չպիտակավորված տվյալների ավելի մեծ հավաքածու: Պիտակավորված տվյալները օգնում են առաջնորդել մոդելի ուսուցումը
տրամադրելով կոնկրետ օրինակներ հայտնի արդյունքներով, մինչդեռ չպիտակավորված տվյալները նպաստում են մոդելի հիմքում ընկած տվյալների բաշխման ըմբռնմանը և օգնում են ավելի լավ ընդհանրացնել:
Կիսավերահսկվող ալգորիթմները սովորաբար գործում են երկու հիմնական եղանակներից մեկով.
-
Ինքնուսուցում/Համապատրաստում. այս մեթոդները կրկնվող պիտակավորում են չպիտակավորված տվյալները՝ օգտագործելով այդ տվյալների վրա մոդելի կանխատեսումները, այնուհետև վերապատրաստում են մոդելը ընդլայնված պիտակավորված տվյալների բազայով:
-
Գրաֆիկի վրա հիմնված մեթոդներ. Նրանք ստեղծում են տվյալների գրաֆիկական ներկայացում, որտեղ հանգույցները ներկայացնում են օրինակներ, իսկ ծայրերը` հարաբերություններ: Այս ալգորիթմներն օգտագործում են գրաֆիկի կառուցվածքը՝ պիտակները պիտակավորվածից մինչև չպիտակավորված օրինակներ տարածելու համար։
Առավելությունները
-
Նվազեցված կախվածություն պիտակավորված տվյալների վրա. կիսավերահսկվող ուսուցումը կարող է զգալիորեն նվազեցնել մեծ քանակությամբ պիտակավորված տվյալների անհրաժեշտությունը՝ դարձնելով այն ծախսարդյունավետ և գործնական այն սցենարներում, որտեղ պիտակավորումը ռեսուրսների ինտենսիվ է:
-
Բարելավված ընդհանրացում. չպիտակավորված տվյալների օգտագործումը հաճախ օգնում է ստեղծել ավելի ամուր մոդելներ՝ ավելի լավ ընդհանրացումով չտեսնված օրինակներին: Մոդելը ձեռք է բերում տվյալների հիմքում ընկած բաշխման ավելի խորը պատկերացում:
Մարտահրավերներ և նկատառումներ
-
Չպիտակավորված տվյալների որակը. չպիտակավորված տվյալները կարող են պարունակել աղմուկ, արտանետումներ կամ անհամապատասխան տեղեկատվություն, որոնք կարող են ազդել մոդելի աշխատանքի վրա, եթե ճիշտ չմշակվեն:
-
Տվյալների բաշխման վերաբերյալ ենթադրություններ. կիսավերահսկվող մեթոդները հաճախ հիմնվում են հիմքում ընկած տվյալների բաշխման վերաբերյալ ենթադրությունների վրա: Եթե այս ենթադրությունները չեն համապատասխանում, դա կարող է հանգեցնել ոչ օպտիմալ արդյունքների:
-
Մոդելի կողմնակալություն. մոդելը կարող է ժառանգել չպիտակավորված տվյալների մեջ առկա կողմնակալությունները՝ ազդելով դրա կանխատեսումների և ընդհանրացման վրա:
-
Ալգորիթմի բարդություն. կիսավերահսկվող ալգորիթմների ներդրումը կարող է պահանջել ավելի շատ հաշվողական ռեսուրսներ և կարգավորումներ` համեմատած վերահսկվող ուսուցման մեթոդների հետ:
Կիրառելիություն
Կիսավերահսկվող ուսուցումը փայլում է այնպիսի սցենարներում, ինչպիսիք են.
-
Բժշկական պատկերացում, որտեղ պիտակավորված տվյալները (օրինակ՝ ծանոթագրված պատկերները) սահմանափակ են:
-
Բնական լեզվի մշակման առաջադրանքներ, որտեղ պիտակավորված տեքստային տվյալների ձեռքբերումը ծախսատար է:
-
Անոմալիաների հայտնաբերումը, որտեղ անոմալիաները հազվադեպ են, և պիտակավորված դեպքեր ստանալը դժվար է:
Թեև կիսավերահսկվող ուսուցումն առաջարկում է արժեքավոր առավելություններ՝ օգտագործելով չպիտակավորված տվյալներ, դրա հաջողությունը մեծապես հիմնված է հասանելի չպիտակավորված տվյալների որակի և քանակի, ընտրված ալգորիթմի համապատասխանության և իրական տվյալների բաշխման հետ ենթադրությունների համապատասխանության վրա: Այս մարտահրավերների արդյունավետ լուծումը կարող է հանգեցնել մոդելի կատարողականի զգալի բարելավումների, հատկապես այն սցենարներում, որտեղ պիտակավորված տվյալները սակավ են կամ թանկ: