Gesuperviseerd leren
Bij gesuperviseerd leren wordt een model getraind op een gelabelde dataset. Gelabelde gegevens betekent dat de invoergegevens gekoppeld zijn aan de juiste uitvoer. Het doel is dat het model de relatie tussen invoer en uitvoer leert, zodat het nauwkeurig voorspellingen kan doen of nieuwe, ongeziene gegevens kan classificeren. Er zijn twee hoofdtypes van leren onder toezicht:
-
Classificatie: Hierbij wordt een categorisch label voorspeld. Bijvoorbeeld, bepalen of een e-mail spam is of geen spam op basis van bepaalde kenmerken (zoals gebruikte woorden, afzender, enz.). Algoritmen zoals Support Vector Machines (SVM), Decision Trees en Neurale Netwerken worden gebruikt voor classificatie.
-
Regressie: Hierbij gaat het om het voorspellen van een continue waarde. Bijvoorbeeld het voorspellen van de prijs van een huis op basis van de kenmerken zoals oppervlakte, aantal slaapkamers, enz. Algoritmen zoals lineaire regressie, Random Forest en Gradient Boosting worden gebruikt voor regressietaken.
Leren zonder toezicht
Bij leren zonder supervisie wordt een model getraind op een ongelabelde dataset. Hier probeert het algoritme verborgen patronen of intrinsieke structuren in de gegevens te vinden zonder expliciete supervisie. Het doel is om de gegevens te verkennen, de structuur ervan te begrijpen en er zinvolle inzichten uit te halen. Veel voorkomende vormen van leren zonder supervisie zijn:
-
Clusteren: Gelijksoortige gegevenspunten groeperen op basis van bepaalde kenmerken of gelijkenissen. Bijvoorbeeld het clusteren van klantsegmenten op basis van hun aankoopgedrag met algoritmes zoals K-Means of Hierarchical Clustering.
-
Reductie van de dimensionaliteit: Het aantal kenmerken verminderen met behoud van essentiële informatie. Principal Component Analysis (PCA) en t-Distributed Stochastic Neighbor Embedding (t-SNE) worden gebruikt om hoog-dimensionale gegevens te visualiseren in een lager-dimensionale ruimte.
Wanneer te gebruiken
-
Supervised Learning wordt gebruikt als je gelabelde gegevens hebt en toekomstige gevallen wilt voorspellen of classificeren op basis van die gelabelde gegevens. Als je bijvoorbeeld historische gegevens hebt over klantaankopen en toekomstige aankopen wilt voorspellen, is leren onder supervisie geschikt.
-
Unsupervised Learning wordt gebruikt als je geen gelabelde gegevens hebt of als je de onderliggende structuur van de gegevens wilt verkennen en begrijpen. Bijvoorbeeld bij het opsporen van anomalieën of het vinden van verborgen patronen in grote datasets.
Soms kan een combinatie van beide soorten leren, bekend als semi-supervised learning, worden gebruikt als je een kleine hoeveelheid gelabelde gegevens en een grote hoeveelheid ongelabelde gegevens hebt, waardoor modellen kunnen profiteren van beide informatiebronnen.