Ikaskuntza gainbegiratua
Gainbegiraturiko ikaskuntza eredu bat etiketatutako datu-multzo batean entrenatzen du. Etiketatutako datuek sarrerako datuak irteera zuzenarekin parekatuta daudela esan nahi du. Helburua da ereduak sarrera eta irteeren arteko mapa edo erlazioa ikastea, iragarpenak egin edo ikusi gabeko datu berriak zehaztasunez sailkatu ahal izateko. Bi ikaskuntza gainbegiratu mota nagusi daude:
-
Sailkapena: Etiketa kategorikoa aurreikustea dakar. Esate baterako, mezu elektroniko bat spama den ala ez spama den zehaztea zenbait ezaugarriren arabera (erabilitako hitzak, igorlea, etab.). Sailkatzeko Laguntza Bektore-Makinak (SVM), Erabakien Zuhaitzak eta Sare Neuronalak bezalako algoritmoak erabiltzen dira.
-
Erregresioa: balio jarraitua aurreikustea dakar. Adibidez, etxe baten prezioa iragartzea bere ezaugarrien arabera, hala nola azalera, logela kopurua, etab. Erregresio lineala, Ausazko basoa eta Gradient Boosting bezalako algoritmoak erabiltzen dira erregresio zereginetarako.
Gainbegiratu gabeko ikaskuntza
Gainbegiratu gabeko ikaskuntza eredu bat etiketarik gabeko datu-multzo batean entrenatzen du. Hemen, algoritmoa datuetan ezkutuko ereduak edo egitura intrintsekoak aurkitzen saiatzen da inolako gainbegiratze espliziturik gabe. Helburua datuak arakatzea, bere egitura ulertzea eta ikuspegi esanguratsuak ateratzea da. Gainbegiratu gabeko ikaskuntza mota arruntak hauek dira:
-
Klustering: Antzeko datu-puntuak multzokatzea ezaugarri edo antzekotasun batzuen arabera. Adibidez, bezero-segmentuak erosketa-jokaeraren arabera multzokatzea K-Means edo Hierarkikoa Clustering bezalako algoritmoak erabiliz.
-
Dimentsio-murrizketa: Funtzio kopurua murriztea funtsezko informazioa mantenduz. Principal Component Analysis (PCA) eta t-Distributed Stochastic Neighbor Embedding (t-SNE) erabiltzen dira dimentsio handiko datuak dimentsio baxuko espazio batean ikusteko.
Noiz erabili bakoitza
-
Ikaskuntza gainbegiratua datuak etiketatu dituzunean eta etiketatutako datu horietan oinarrituta etorkizuneko gertaerak aurreikusi edo sailkatu nahi dituzunean erabiltzen da. Adibidez, bezeroen erosketei buruzko datu historikoak badituzu eta etorkizuneko erosketak aurreikusi nahi badituzu, ikasketa gainbegiratua egokia da.
-
Gainbegiratu gabeko ikaskuntza daturik etiketaturik ez duzunean edo datuen azpiko egitura arakatu eta ulertu nahi duzunean erabiltzen da. Adibidez, anomaliak hautematen edo datu multzo handietan ezkutuko ereduak aurkitzeko.
Batzuetan, bi ikaskuntza motaren konbinazioa, erdi gainbegiratua deritzona, etiketatutako datu kopuru txiki bat eta etiketarik gabeko datu kopuru handi bat dituzunean erabil daiteke, ereduek bi informazio-iturrietatik aprobetxatu ahal izateko. .