Überwachtes und unüberwachtes Lernen verstehen
Aktualisiert auf September 02, 2024 2 Minuten gelesen

Überwachtes Lernen
Überwachtes Lernen beinhaltet das Trainieren eines Modells anhand eines beschrifteten Datensatzes. Beschriftete Daten bedeuten, dass die Eingabedaten mit der richtigen Ausgabe gepaart sind. Das Ziel besteht darin, dass das Modell die Zuordnung oder Beziehung zwischen Eingaben und Ausgaben lernt, damit es Vorhersagen treffen oder neue, unsichtbare Daten genau klassifizieren kann. Es gibt zwei Haupttypen des überwachten Lernens:
-
Klassifizierung: Dies beinhaltet die Vorhersage einer kategorialen Bezeichnung. Beispielsweise kann anhand bestimmter Merkmale (z. B. verwendete Wörter, Absender usw.) festgestellt werden, ob es sich bei einer E-Mail um Spam handelt oder nicht. Zur Klassifizierung werden Algorithmen wie Support Vector Machines (SVM), Entscheidungsbäume und neuronale Netze verwendet.
-
Regression: Beinhaltet die Vorhersage eines kontinuierlichen Werts. Zum Beispiel die Vorhersage des Preises eines Hauses anhand seiner Merkmale wie Fläche, Anzahl der Schlafzimmer usw. Für Regressionsaufgaben werden Algorithmen wie lineare Regression, Random Forest und Gradient Boosting verwendet.
Unüberwachtes Lernen
Unüberwachtes Lernen beinhaltet das Trainieren eines Modells anhand eines unbeschrifteten Datensatzes. Dabei versucht der Algorithmus ohne explizite Überwachung versteckte Muster oder intrinsische Strukturen in den Daten zu finden. Ziel ist es, die Daten zu untersuchen, ihre Struktur zu verstehen und aussagekräftige Erkenntnisse zu gewinnen. Zu den gängigen Arten des unbeaufsichtigten Lernens gehören:
-
Clustering: Gruppierung ähnlicher Datenpunkte basierend auf bestimmten Merkmalen oder Ähnlichkeiten. Beispielsweise können Kundensegmente anhand ihres Kaufverhaltens mithilfe von Algorithmen wie K-Means oder Hierarchical Clustering geclustert werden.
-
Dimensionalitätsreduzierung: Reduzierung der Anzahl der Funktionen unter Beibehaltung wesentlicher Informationen. Hauptkomponentenanalyse (PCA) und t-Distributed Stochastic Neighbor Embedding (t-SNE) werden verwendet, um hochdimensionale Daten in einem niedrigerdimensionalen Raum zu visualisieren.
Wann jeweils zu verwenden ist
-
Überwachtes Lernen wird verwendet, wenn Sie über gekennzeichnete Daten verfügen und zukünftige Instanzen auf der Grundlage dieser gekennzeichneten Daten vorhersagen oder klassifizieren möchten. Wenn Sie beispielsweise über historische Daten zu Kundenkäufen verfügen und zukünftige Käufe vorhersagen möchten, eignet sich überwachtes Lernen.
-
Unüberwachtes Lernen wird verwendet, wenn Sie keine gekennzeichneten Daten haben oder wenn Sie die zugrunde liegende Struktur der Daten untersuchen und verstehen möchten. Zum Beispiel bei der Anomalieerkennung oder der Suche nach versteckten Mustern in großen Datensätzen.
Manchmal kann eine Kombination beider Lernarten, bekannt als halbüberwachtes Lernen, eingesetzt werden, wenn Sie über eine kleine Menge beschrifteter Daten und eine große Menge unbeschrifteter Daten verfügen, sodass Modelle von beiden Informationsquellen profitieren können .