Ajustement excessif et ajustement insuffisant dans l'apprentissage automatique

Prévention de l'overfitting
Prévention de l'underfitting
Techniques de généralisation des modèles
Ajustement excessif et ajustement insuffisant dans l'apprentissage automatique cover image

L'ajustement excessif et l'ajustement insuffisant sont des problèmes courants dans les modèles d'apprentissage automatique qui affectent leur capacité à bien se généraliser à de nouvelles données inédites.

Il y a surajustement lorsqu'un modèle apprend non seulement les modèles sous-jacents des données d'apprentissage, mais aussi le bruit et les fluctuations aléatoires présents dans ces données. Par conséquent, le modèle est exceptionnellement performant sur les données d'apprentissage mais ne parvient pas à se généraliser à de nouvelles données, car il a essentiellement mémorisé l'ensemble des données d'apprentissage.

Le sous-ajustement, quant à lui, se produit lorsqu'un modèle est trop simple pour capturer les modèles sous-jacents dans les données d'apprentissage. Il donne de mauvais résultats non seulement sur les données d'apprentissage, mais aussi sur les nouvelles données, car il ne parvient pas à apprendre les relations et les complexités présentes dans les données.

Comment éviter l'overfitting et l'underfitting ?

  • Validation croisée: Utilisez des techniques telles que la validation croisée k-fold pour évaluer les performances du modèle sur différents sous-ensembles de données. Elle permet d'estimer dans quelle mesure le modèle se généralisera à de nouvelles données.

  • Séparation formation-test: Divisez vos données en deux ensembles distincts, l'un pour la formation et l'autre pour le test. Entraînez le modèle sur l'ensemble d'entraînement et évaluez ses performances sur l'ensemble de test. Cela permet d'évaluer le degré de généralisation du modèle à des données inédites.

  • Sélection/réduction des caractéristiques: Réduire la complexité du modèle en ne sélectionnant que les caractéristiques les plus pertinentes ou en utilisant des techniques telles que l'analyse en composantes principales (PCA) pour réduire la dimensionnalité des données.

  • Régularisation: Des techniques telles que la régularisation L1 ou L2 ajoutent des pénalités de complexité à la fonction objective du modèle, l'empêchant de s'adapter trop étroitement au bruit des données.

  • Méthodes d'ensemble: Combinaison de plusieurs modèles pour réduire l'ajustement excessif et l'ajustement insuffisant. Des techniques telles que le bagging, le boosting ou le stacking utilisent plusieurs modèles pour améliorer les performances globales et la généralisation.

  • Réglage des hyperparamètres : Ajuster les hyperparamètres du modèle (comme le taux d'apprentissage, la profondeur des arbres dans les arbres de décision, etc. ) en utilisant des techniques comme la recherche par grille ou la recherche aléatoire pour trouver la configuration optimale qui équilibre le biais et la variance.

  • Arrêt précoce: Surveillez les performances du modèle sur un ensemble de validation pendant la formation et arrêtez le processus de formation lorsque les performances commencent à se dégrader, ce qui permet d'éviter l'ajustement excessif.

  • Plus de données: L'augmentation du nombre de données peut aider le modèle à mieux se généraliser en fournissant un échantillon plus diversifié et plus représentatif de la distribution sous-jacente.

Il est essentiel de trouver le bon équilibre entre la complexité du modèle et la généralisation pour éviter l'ajustement excessif et l'ajustement insuffisant, et ces techniques permettent d'atteindre cet équilibre.


Career Services background pattern

Services de carrière

Contact Section background image

Restons en contact

Code Labs Academy © 2025 Tous droits réservés.