La validation croisée est une technique essentielle utilisée pour évaluer les performances d'un modèle sur de nouvelles données. L'objectif principal est d'évaluer les performances d'un modèle de manière à minimiser les problèmes tels que le surajustement ( lorsque le modèle apprend trop des données d'apprentissage et donne de mauvais résultats sur des données inédites) et le sous-ajustement ( lorsque le modèle est trop simpliste pour capturer les modèles dans les données).
Le concept consiste à diviser les données disponibles en plusieurs sous-ensembles, généralement en deux parties principales : l'ensemble d'apprentissage et l'ensemble de validation ( qui est aussi parfois appelé l'ensemble de test).
Une technique courante est la validation croisée k-fold :
-
L'ensemble de données est divisé en "k" sous-ensembles (ou plis) de taille approximativement égale.
-
Le modèle est entraîné "k" fois, en utilisant à chaque fois un pli différent comme ensemble de validation et les plis restants comme ensemble d'entraînement.
-
Par exemple, dans la validation croisée 5 fois, les données sont divisées en cinq sous-ensembles. Le modèle est formé cinq fois, en utilisant à chaque fois un sous-ensemble différent des cinq sous-ensembles comme ensemble de validation et les quatre autres comme ensemble de formation.
-
La moyenne des mesures de performance ( telles que l'exactitude, la précision, le rappel, etc.) est calculée sur ces "k" itérations pour obtenir une estimation finale de la performance.
Parmi les autres techniques courantes, on peut citer
Validation croisée sans interruption (LOOCV)
-
Chaque point de données sert d'ensemble de validation et le modèle est formé sur le reste des données.
-
Cette méthode est coûteuse en termes de calcul pour les grands ensembles de données, mais elle peut être très précise car elle utilise la quasi-totalité des données pour la formation.
Validation croisée stratifiée
- Il garantit que chaque pli est représentatif de l'ensemble des données. Il maintient la distribution des classes dans chaque pli, ce qui est utile pour les ensembles de données déséquilibrés.
La validation croisée est cruciale car elle fournit une estimation plus fiable des performances d'un modèle sur des données inédites par rapport à une seule répartition formation-test. Elle permet d'identifier des problèmes tels que le surajustement ou le sous-ajustement en fournissant une estimation plus solide de la manière dont le modèle se généralisera à de nouvelles données.
En utilisant la validation croisée, les praticiens de l'apprentissage automatique peuvent prendre de meilleures décisions concernant la sélection des modèles, le réglage des hyperparamètres et l'évaluation des performances de généralisation d'un modèle sur des données inédites.