La validation croisée K-fold est une technique utilisée pour évaluer les performances d'un modèle. Elle est particulièrement utile pour estimer la capacité d'un modèle à se généraliser à de nouvelles données inédites. Le processus consiste à diviser l'ensemble de données en "k" sous-ensembles ou plis de taille approximativement égale. Voici une description des différentes étapes :
1. Fractionnement de l'ensemble des données :
L'ensemble de données est divisé en "k" sous-ensembles ou plis de taille égale. Par exemple, si vous avez 1 000 échantillons et que vous choisissez "k" comme 5, chaque pli contiendra 200 échantillons.
2. Formation et évaluation itératives :
Le modèle est entraîné "k" fois. À chaque itération, un pli différent est utilisé comme ensemble de validation et les autres plis sont utilisés pour la formation. Par exemple :
-
Itération 1 : le pli 1 sert de validation, les plis 2 à k servent à l'apprentissage.
-
Itération 2 : le pli 2 sert de validation, les plis 1 et 3 à k pour la formation.
-
Itération 3 : le pli 3 sert de validation, les plis 1 et 2, et le pli 4 à k pour la formation.
-
... et ainsi de suite jusqu'à ce que tous les plis aient été utilisés comme ensemble de validation.
3. Évaluation des performances :
Après chaque itération, les performances du modèle sont évaluées à l'aide d'une mesure choisie (par exemple, l'exactitude, la précision, le rappel, etc.) sur l'ensemble de validation. Les mesures de performance de chaque itération sont moyennées ou combinées pour donner une estimation globale de la performance du modèle.
4. Agrégation des mesures :
Les mesures de performance (, par exemple les scores de précision) de chaque itération, sont moyennées ou combinées pour fournir une évaluation globale de la performance du modèle. Cette mesure agrégée représente la performance attendue du modèle sur des données inédites.
Avantages de la validation croisée K-fold par rapport à une simple répartition formation/test
-
Meilleure utilisation des données: La validation croisée K-fold permet une meilleure utilisation des données disponibles, car chaque échantillon est utilisé à la fois pour la formation et la validation.
-
Réduction de la variance dans l'estimation des performances: Il fournit une estimation plus fiable de la performance du modèle en réduisant la variance associée à une seule répartition entre le train et le test.
-
Généralisation: Elle permet de comprendre comment le modèle fonctionne sur différents sous-ensembles de données, et donc d'évaluer sa capacité de généralisation.
Choix de la valeur de "k
-
Valeurs "k" plus élevées: L'utilisation d'une valeur "k" plus élevée (e.g. 10 ou plus) entraîne des ensembles de validation plus petits, ce qui peut conduire à un biais plus faible dans l'estimation de la performance, mais à un coût de calcul plus élevé.
-
Valeurs "k" inférieures: L'utilisation d'une valeur "k" plus faible (e.g. 3 ou 5) réduit les frais de calcul mais peut entraîner un biais plus important dans l'estimation des performances en raison d'ensembles de validation plus petits.
Dans les scénarios pratiques
-
Pour les grands ensembles de données, des valeurs "k" plus élevées peuvent s'avérer coûteuses en termes de calcul.
-
Lorsque l'ensemble de données est petit, un "k" plus élevé peut ne pas fournir suffisamment de données dans chaque pli pour un apprentissage robuste du modèle.
-
En général, des valeurs telles que 5 ou 10 sont couramment utilisées, car elles permettent de trouver un équilibre entre l'efficacité des calculs et la fiabilité de l'estimation des performances.