Überwachtes Lernen
Beim überwachten Lernen wird ein Modell anhand eines markierten Datensatzes trainiert. Markierte Daten bedeuten, dass die Eingabedaten mit der richtigen Ausgabe gepaart sind. Ziel ist es, dass das Modell die Zuordnung oder Beziehung zwischen Eingaben und Ausgaben lernt, so dass es Vorhersagen treffen oder neue, ungesehene Daten genau klassifizieren kann. Es gibt zwei Hauptarten des überwachten Lernens:
-
Klassifizierung: Hier geht es um die Vorhersage einer kategorischen Bezeichnung. So wird beispielsweise anhand bestimmter Merkmale (wie verwendete Wörter, Absender usw.) festgestellt, ob eine E-Mail Spam ist oder nicht. Algorithmen wie Support Vector Machines (SVM), Entscheidungsbäume und neuronale Netze werden für die Klassifizierung verwendet.
-
Regression: Bezieht sich auf die Vorhersage eines kontinuierlichen Wertes. Zum Beispiel die Vorhersage des Preises eines Hauses auf der Grundlage seiner Merkmale wie Fläche, Anzahl der Schlafzimmer usw. Algorithmen wie lineare Regression, Random Forest und Gradient Boosting werden für Regressionsaufgaben verwendet.
Unüberwachtes Lernen
Beim unüberwachten Lernen wird ein Modell auf einem nicht beschrifteten Datensatz trainiert. Dabei versucht der Algorithmus, verborgene Muster oder intrinsische Strukturen in den Daten ohne explizite Überwachung zu finden. Das Ziel besteht darin, die Daten zu erforschen, ihre Struktur zu verstehen und sinnvolle Erkenntnisse zu gewinnen. Zu den gängigen Arten des unüberwachten Lernens gehören:
-
Clustering: Gruppierung ähnlicher Datenpunkte auf der Grundlage bestimmter Merkmale oder Ähnlichkeiten. Zum Beispiel das Clustern von Kundensegmenten auf der Grundlage ihres Kaufverhaltens mit Algorithmen wie K-Means oder Hierarchisches Clustering.
-
Dimensionalitätsreduzierung: Verringerung der Anzahl der Merkmale unter Beibehaltung der wesentlichen Informationen. Die Hauptkomponentenanalyse (PCA) und t-Distributed Stochastic Neighbor Embedding (t-SNE) werden verwendet, um hochdimensionale Daten in einem niedrigeren-dimensionalen Raum zu visualisieren.
Wann wird welches Verfahren verwendet?
-
Überwachtes Lernen wird verwendet, wenn du beschriftete Daten hast und zukünftige Instanzen auf der Grundlage dieser beschrifteten Daten vorhersagen oder klassifizieren möchtest. Wenn du beispielsweise über historische Daten zu Kundenkäufen verfügst und zukünftige Käufe vorhersagen möchtest, eignet sich das überwachte Lernen.
-
Unüberwachtes Lernen wird verwendet, wenn du keine gekennzeichneten Daten hast oder wenn du die zugrunde liegende Struktur der Daten erforschen und verstehen willst. Zum Beispiel bei der Erkennung von Anomalien oder der Suche nach verborgenen Mustern in großen Datensätzen.
Manchmal kann eine Kombination aus beiden Lerntypen, das so genannte halbüberwachte Lernen, eingesetzt werden, wenn eine kleine Menge an gekennzeichneten Daten und eine große Menge an nicht gekennzeichneten Daten vorliegt, so dass die Modelle von beiden Informationsquellen profitieren können.