Apprendimento supervisionato
L'apprendimento supervisionato prevede l'addestramento di un modello su un set di dati etichettati. I dati etichettati significano che i dati di input sono abbinati all'output corretto. L'obiettivo è che il modello impari la mappatura o la relazione tra input e output, in modo da poter fare previsioni o classificare accuratamente nuovi dati non visti. Esistono due tipi principali di apprendimento supervisionato:
-
Classificazione: Si tratta di prevedere un'etichetta categorica. Ad esempio, determinare se un'e-mail è spam o meno in base a determinate caratteristiche (come le parole utilizzate, il mittente, ecc.). Per la classificazione si utilizzano algoritmi come le macchine a vettori di supporto (SVM), gli alberi decisionali e le reti neurali.
-
Regressione: Consiste nel prevedere un valore continuo. Ad esempio, prevedere il prezzo di una casa in base a caratteristiche come la superficie, il numero di camere da letto, ecc. Per le attività di regressione si utilizzano algoritmi come la Regressione lineare, la Foresta casuale e il Gradient Boosting.
Apprendimento non supervisionato
L'apprendimento non supervisionato prevede l'addestramento di un modello su un insieme di dati non etichettati. In questo caso, l'algoritmo cerca di trovare modelli nascosti o strutture intrinseche nei dati senza alcuna supervisione esplicita. L'obiettivo è esplorare i dati, comprenderne la struttura ed estrarre spunti significativi. I tipi più comuni di apprendimento non supervisionato includono:
-
Raggruppamento: Raggruppamento di punti di dati simili in base a determinate caratteristiche o somiglianze. Ad esempio, raggruppare i segmenti di clienti in base al loro comportamento d'acquisto utilizzando algoritmi come K-Means o Hierarchical Clustering.
-
Riduzione della dimensionalità: Riduzione del numero di caratteristiche mantenendo le informazioni essenziali. L'analisi delle componenti principali (PCA) e il t-Distributed Stochastic Neighbor Embedding (t-SNE) sono utilizzati per visualizzare i dati ad alta densità in uno spazio a bassa densità.
Quando utilizzare ciascuno di essi
-
L'apprendimento supervisionato viene utilizzato quando si dispone di dati etichettati e si desidera prevedere o classificare istanze future in base a tali dati etichettati. Ad esempio, se si dispone di dati storici sugli acquisti dei clienti e si vogliono prevedere gli acquisti futuri, l'apprendimento supervisionato è adatto.
-
L'apprendimento non supervisionato viene utilizzato quando non si dispone di dati etichettati o quando si vuole esplorare e comprendere la struttura sottostante dei dati. Ad esempio, nel rilevamento di anomalie o nella ricerca di schemi nascosti in grandi insiemi di dati.
A volte, una combinazione di entrambi i tipi di apprendimento, nota come apprendimento semi-supervisionato, può essere impiegata quando si dispone di una piccola quantità di dati etichettati e di una grande quantità di dati non etichettati, consentendo ai modelli di trarre vantaggio da entrambe le fonti di informazione.