Comprendre et prévenir le surajustement des modèles d'apprentissage automatique

Mis à jour sur June 05, 2024 2 MINUTES LIRE

Il y a surajustement lorsqu’un modèle apprend non seulement les modèles sous-jacents des données d’apprentissage, mais aussi le bruit et le caractère aléatoire présents dans cet ensemble de données spécifique. Il en résulte un modèle très performant sur les données d’apprentissage, mais qui ne parvient pas à se généraliser à de nouvelles données inédites.

Identification

Précision d’apprentissage élevée, précision de test faible: L’un des principaux indicateurs est le fait que le modèle donne des résultats exceptionnels sur les données d’apprentissage, mais médiocres sur les données de test ou de validation.
Complexité du modèle: Les modèles surajoutés ont tendance à être excessivement complexes, capturant le bruit plutôt que les modèles sous-jacents.
Visualisations: Les tracés tels que les courbes d’apprentissage montrant les performances sur les ensembles d’apprentissage et de validation peuvent révéler un surajustement si les performances d’apprentissage continuent de s’améliorer alors que les performances de validation plafonnent ou diminuent.

Prévention et techniques d’atténuation de l’overfitting

Validation croisée: Des techniques telles que la validation croisée k-fold permettent d’évaluer les performances du modèle sur différents sous-ensembles de données, afin de s’assurer qu’il se généralise bien.
Séparation formation-validation-test: La division des données en ensembles distincts pour la formation, la validation et le test permet d’évaluer le modèle sur des données inédites.
Sélection des caractéristiques: Utiliser uniquement les caractéristiques les plus pertinentes pour former le modèle, en évitant le bruit des attributs moins informatifs.
Régularisation: Les techniques telles que la régularisation L1 ou L2 ajoutent des termes de pénalité à la fonction de perte du modèle, décourageant ainsi les modèles trop complexes.
Arrêt précoce: Surveillez les performances du modèle sur un ensemble de validation et arrêtez la formation lorsque les performances commencent à se dégrader, afin d’éviter une sur-optimisation sur les données de formation.
Méthodes d’ensemble: L’utilisation de techniques telles que le bagging, le boosting ou le stacking peut contribuer à réduire l’overfitting en combinant les prédictions de plusieurs modèles.
Augmentation des données: Pour certains types de modèles, la génération de données d’apprentissage supplémentaires en appliquant des transformations ou des perturbations aux données existantes peut aider à prévenir l’ajustement excessif.

Il est essentiel d’équilibrer la complexité du modèle, la taille de l’ensemble de données et les techniques de régularisation afin d’éviter l’ajustement excessif tout en garantissant que le modèle se généralise bien à de nouvelles données inédites.