El sobreajust es produeix quan un model aprèn no només els patrons subjacents a les dades d'entrenament, sinó també el soroll i l'aleatorietat presents en aquest conjunt de dades específic. Això dóna com a resultat un model que funciona molt bé amb les dades d'entrenament però que no generalitza a dades noves i no vistes.
Identificació
-
Alta precisió de l'entrenament, baixa precisió de la prova: un dels indicadors principals és quan el model funciona excepcionalment bé amb les dades d'entrenament però malament amb les dades de prova o validació.
-
Complexitat del model: els models de sobreajust tendeixen a ser excessivament complexos, capturant el soroll en lloc dels patrons subjacents.
-
Visualitzacions: gràfics com corbes d'aprenentatge que mostren el rendiment en conjunts d'entrenament i validació poden revelar un sobreajustament si el rendiment de l'entrenament continua millorant mentre el rendiment de la validació s'altera o disminueix.
Prevenció i Tècniques per mitigar el sobreajust
-
Validació creuada: tècniques com la validació creuada en k-fold poden ajudar a avaluar el rendiment del model en diferents subconjunts de dades, garantint que es generalitzi bé.
-
Divisió de validació de trens i proves: dividir les dades en conjunts diferents per a la formació, la validació i les proves garanteix que el model s'avaluï a partir de dades no vistes.
-
Selecció de funcions: utilitzeu només les funcions més rellevants per entrenar el model, evitant el soroll d'atributs menys informatius.
-
Regularització: tècniques com la regularització L1 o L2 afegeixen termes de penalització a la funció de pèrdua del model, desincentivant els models massa complexos.
-
Aturació anticipada: supervisa el rendiment del model en un conjunt de validació i atura l'entrenament quan el rendiment comença a degradar-se, evitant que s'optimitzi excessivament les dades d'entrenament.
-
Mètodes de conjunt: l'ús de tècniques com l'empaquetament, l'augment o l'apilament pot ajudar a reduir el sobreajust combinant les prediccions de diversos models.
-
Augment de dades: per a determinats tipus de models, generar dades d'entrenament addicionals aplicant transformacions o pertorbacions a les dades existents pot ajudar a evitar el sobreajustament.
L'equilibri de la complexitat del model, la mida del conjunt de dades i les tècniques de regularització és crucial per evitar l'excés d'ajust alhora que garanteix que el model es generalitzi bé amb dades noves i no vistes.