Inzicht in begeleid en niet-gesuperviseerd leren

Bijgewerkt op June 22, 2024 2 Minuten lezen

Inzicht in begeleid en niet-gesuperviseerd leren cover image

Leren onder toezicht

Begeleid leren omvat het trainen van een model op een gelabelde dataset. Gelabelde gegevens betekent dat de invoergegevens zijn gekoppeld aan de juiste uitvoer. Het doel is dat het model de mapping of relatie tussen inputs en outputs leert kennen, zodat het voorspellingen kan doen of nieuwe, ongeziene gegevens nauwkeurig kan classificeren. Er zijn twee hoofdtypen van begeleid leren:

  • Classificatie: Dit omvat het voorspellen van een categorisch label. U kunt bijvoorbeeld bepalen of een e-mail al dan niet spam is op basis van bepaalde kenmerken (zoals gebruikte woorden, afzender, enz.). Voor de classificatie worden algoritmen zoals Support Vector Machines (SVM), beslissingsbomen en neurale netwerken gebruikt.

  • Regressie: Betreft het voorspellen van een continue waarde. Bijvoorbeeld het voorspellen van de prijs van een huis op basis van kenmerken zoals de oppervlakte, het aantal slaapkamers, enz. Algoritmen zoals lineaire regressie, willekeurig bos en gradiëntboost worden gebruikt voor regressietaken.

Leren zonder toezicht

Ongecontroleerd leren omvat het trainen van een model op een niet-gelabelde dataset. Hier probeert het algoritme verborgen patronen of intrinsieke structuren in de data te vinden zonder expliciet toezicht. Het doel is om de gegevens te verkennen, de structuur ervan te begrijpen en er zinvolle inzichten uit te halen. Veel voorkomende vormen van leren zonder toezicht zijn onder meer:

  • Clustering: Het groeperen van vergelijkbare datapunten op basis van bepaalde kenmerken of overeenkomsten. Bijvoorbeeld het clusteren van klantsegmenten op basis van hun koopgedrag met behulp van algoritmen als K-Means of Hierarchical Clustering.

  • Dimensionaliteitsreductie: Vermindering van het aantal functies terwijl essentiële informatie behouden blijft. Principal Component Analysis (PCA) en t-Distributed Stochastic Neighbor Embedding (t-SNE) worden gebruikt om hoog-dimensionale gegevens in een lager-dimensionale ruimte te visualiseren.

Wanneer moet je ze gebruiken?

  • Begeleid leren wordt gebruikt wanneer u gegevens hebt gelabeld en toekomstige exemplaren wilt voorspellen of classificeren op basis van die gelabelde gegevens. Als u bijvoorbeeld historische gegevens over klantaankopen heeft en toekomstige aankopen wilt voorspellen, is begeleid leren geschikt.

  • Unsupervised Learning wordt gebruikt als u geen gelabelde gegevens heeft of als u de onderliggende structuur van de gegevens wilt verkennen en begrijpen. Bijvoorbeeld bij anomaliedetectie of het vinden van verborgen patronen in grote datasets.

Soms kan een combinatie van beide soorten leren, bekend als semi-gesuperviseerd leren, worden gebruikt als u over een kleine hoeveelheid gelabelde gegevens en een grote hoeveelheid niet-gelabelde gegevens beschikt, waardoor modellen kunnen profiteren van beide informatiebronnen .