Comprendere l'apprendimento supervisionato e non supervisionato
Aggiornato su September 02, 2024 2 minuti a leggere

Apprendimento supervisionato
L’apprendimento supervisionato prevede l’addestramento di un modello su un set di dati etichettati. I dati etichettati indicano che i dati di input sono associati all’output corretto. L’obiettivo è che il modello apprenda la mappatura o la relazione tra input e output in modo da poter fare previsioni o classificare con precisione dati nuovi e invisibili. Esistono due tipi principali di apprendimento supervisionato:
-
Classificazione: comporta la previsione di un’etichetta categoriale. Ad esempio, determinare se un’e-mail è spam o meno in base a determinate caratteristiche (come le parole utilizzate, il mittente, ecc.). Per la classificazione vengono utilizzati algoritmi come Support Vector Machines (SVM), alberi decisionali e reti neurali.
-
Regressione: implica la previsione di un valore continuo. Ad esempio, prevedere il prezzo di una casa in base alle sue caratteristiche come area, numero di camere da letto, ecc. Algoritmi come Regressione lineare, Foresta casuale e Potenziamento gradiente vengono utilizzati per attività di regressione.
Apprendimento non supervisionato
L’apprendimento non supervisionato prevede l’addestramento di un modello su un set di dati senza etichetta. In questo caso, l’algoritmo cerca di trovare modelli nascosti o strutture intrinseche nei dati senza alcuna supervisione esplicita. L’obiettivo è esplorare i dati, comprenderne la struttura ed estrarre informazioni significative. I tipi comuni di apprendimento non supervisionato includono:
-
Clustering: raggruppamento di punti dati simili in base a determinate caratteristiche o somiglianze. Ad esempio, raggruppando segmenti di clienti in base al loro comportamento di acquisto utilizzando algoritmi come K-Means o Hierarchical Clustering.
-
Riduzione della dimensionalità: riduzione del numero di funzionalità mantenendo le informazioni essenziali. L’analisi delle componenti principali (PCA) e l’embedding stocastico dei vicini t-distribuiti (t-SNE) vengono utilizzati per visualizzare dati ad alta dimensione in uno spazio a dimensione inferiore.
Quando utilizzarli ciascuno
-
L’apprendimento supervisionato viene utilizzato quando hai etichettato i dati e desideri prevedere o classificare istanze future in base a tali dati etichettati. Ad esempio, se disponi di dati storici sugli acquisti dei clienti e desideri prevedere gli acquisti futuri, l’apprendimento supervisionato è adatto.
-
L’apprendimento non supervisionato viene utilizzato quando non si dispone di dati etichettati o quando si desidera esplorare e comprendere la struttura sottostante dei dati. Ad esempio, nel rilevamento di anomalie o nella ricerca di modelli nascosti in set di dati di grandi dimensioni.
A volte, una combinazione di entrambi i tipi di apprendimento, nota come apprendimento semi-supervisionato, può essere utilizzata quando si dispone di una piccola quantità di dati etichettati e di una grande quantità di dati senza etichetta, consentendo ai modelli di trarre vantaggio da entrambe le fonti di informazione .