Überwachtes und unüberwachtes Lernen verstehen

Überwachtes Lernen
Unüberwachtes Lernen
Daten
Überwachtes und unüberwachtes Lernen verstehen cover image

Überwachtes Lernen

Beim überwachten Lernen wird ein Modell anhand eines markierten Datensatzes trainiert. Markierte Daten bedeuten, dass die Eingabedaten mit der richtigen Ausgabe gepaart sind. Ziel ist es, dass das Modell die Zuordnung oder Beziehung zwischen Eingaben und Ausgaben lernt, so dass es Vorhersagen treffen oder neue, noch nicht gesehene Daten genau klassifizieren kann. Es gibt zwei Hauptarten des überwachten Lernens:

  • Klassifizierung: Hier geht es um die Vorhersage einer kategorischen Bezeichnung. So wird beispielsweise anhand bestimmter Merkmale (wie verwendete Wörter, Absender usw.) festgestellt, ob eine E-Mail Spam ist oder nicht. Algorithmen wie Support Vector Machines (SVM), Entscheidungsbäume und neuronale Netze werden für die Klassifizierung verwendet.

  • Regression: Beinhaltet die Vorhersage eines kontinuierlichen Wertes. Zum Beispiel die Vorhersage des Preises eines Hauses auf der Grundlage seiner Merkmale wie Fläche, Anzahl der Schlafzimmer usw. Algorithmen wie lineare Regression, Random Forest und Gradient Boosting werden für Regressionsaufgaben verwendet.

Unüberwachtes Lernen

Beim unüberwachten Lernen wird ein Modell auf einem nicht beschrifteten Datensatz trainiert. Dabei versucht der Algorithmus, versteckte Muster oder intrinsische Strukturen in den Daten zu finden, ohne dass eine explizite Überwachung stattfindet. Das Ziel besteht darin, die Daten zu erforschen, ihre Struktur zu verstehen und sinnvolle Erkenntnisse zu gewinnen. Zu den gängigen Arten des unüberwachten Lernens gehören:

  • Clustering: Gruppierung ähnlicher Datenpunkte auf der Grundlage bestimmter Merkmale oder Ähnlichkeiten. Zum Beispiel das Clustern von Kundensegmenten auf der Grundlage ihres Kaufverhaltens mit Algorithmen wie K-Means oder Hierarchisches Clustering.

  • Dimensionalitätsreduktion: Verringerung der Anzahl der Merkmale unter Beibehaltung der wesentlichen Informationen. Die Hauptkomponentenanalyse (PCA) und die t-Distributed Stochastic Neighbor Embedding (t-SNE) werden verwendet, um hochdimensionale Daten in einem niedrigeren-dimensionalen Raum zu visualisieren.

Wann sind sie zu verwenden?

  • Überwachtes Lernen wird verwendet, wenn Sie über markierte Daten verfügen und auf der Grundlage dieser markierten Daten zukünftige Instanzen vorhersagen oder klassifizieren wollen. Wenn Sie beispielsweise über historische Daten zu Kundenkäufen verfügen und künftige Käufe vorhersagen möchten, ist das überwachte Lernen geeignet.

  • Unüberwachtes Lernen wird eingesetzt, wenn keine markierten Daten vorliegen oder wenn man die zugrunde liegende Struktur der Daten erforschen und verstehen möchte. Zum Beispiel bei der Erkennung von Anomalien oder der Suche nach versteckten Mustern in großen Datensätzen.

Manchmal kann eine Kombination aus beiden Lerntypen, das so genannte halbüberwachte Lernen, eingesetzt werden, wenn eine kleine Menge an gekennzeichneten Daten und eine große Menge an nicht gekennzeichneten Daten vorliegt, so dass die Modelle von beiden Informationsquellen profitieren können.


Career Services background pattern

Karrieredienste

Contact Section background image

Lass uns in Kontakt bleiben

Code Labs Academy © 2024 Alle Rechte vorbehalten.