Overvåget læring
Supervised learning involverer træning af en model på et mærket datasæt. Mærket data betyder, at inputdataene er parret med det korrekte output. Målet er, at modellen lærer kortlægningen eller forholdet mellem input og output, så den kan lave forudsigelser eller klassificere nye, usete data præcist. Der er to hovedtyper af superviseret læring:
-
Klassificering: Dette involverer forudsigelse af en kategorisk etiket. For eksempel at afgøre, om en e-mail er spam eller ej, baseret på visse funktioner (som brugte ord, afsender osv.). Algoritmer som Support Vector Machines (SVM), Decision Trees og Neurale Networks bruges til klassificering.
-
Regression: Indebærer forudsigelse af en kontinuerlig værdi. For eksempel at forudsige prisen på et hus baseret på dets funktioner som område, antal soveværelser osv. Algoritmer som Lineær Regression, Random Forest og Gradient Boosting bruges til regressionsopgaver.
Uovervåget læring
Uovervåget læring involverer træning af en model på et umærket datasæt. Her forsøger algoritmen at finde skjulte mønstre eller iboende strukturer i dataene uden nogen eksplicit supervision. Målet er at udforske dataene, forstå deres struktur og udtrække meningsfuld indsigt. Almindelige typer af uovervåget læring omfatter:
-
Klynger: Gruppering af lignende datapunkter baseret på bestemte funktioner eller ligheder. For eksempel klynge kundesegmenter baseret på deres købsadfærd ved hjælp af algoritmer som K-Means eller Hierarchical Clustering.
-
Reduktion af dimensioner: Reduktion af antallet af funktioner, samtidig med at vigtige oplysninger bevares. Principal Component Analysis (PCA) og t-Distribueret Stokastisk Neighbor Embedding (t-SNE) bruges til at visualisere højdimensionelle data i et rum med lavere dimensioner.
Hvornår skal man bruge hver
-
Overvåget læring bruges, når du har mærket data og ønsker at forudsige eller klassificere fremtidige tilfælde baseret på de mærkede data. For eksempel, hvis du har historiske data om kundekøb og ønsker at forudsige fremtidige køb, er superviseret læring velegnet.
-
Unsupervised Learning bruges, når du ikke har mærkede data, eller når du vil udforske og forstå den underliggende struktur af dataene. For eksempel ved anomalidetektion eller ved at finde skjulte mønstre i store datasæt.
Nogle gange kan en kombination af begge typer læring, kendt som semi-supervised learning, anvendes, når du har en lille mængde mærkede data og en stor mængde umærkede data, hvilket gør det muligt for modeller at drage fordel af begge informationskilder .