O sobreajuste ocorre cando un modelo aprende non só os patróns subxacentes nos datos de adestramento, senón tamén o ruído e a aleatoriedade presentes nese conxunto de datos específico. Isto dá como resultado un modelo que funciona moi ben cos datos de adestramento pero que non xeneraliza a datos novos e non vistos.
Identificación
-
Alta precisión de adestramento, baixa precisión de proba: un dos indicadores principais é cando o modelo funciona excepcionalmente ben nos datos de adestramento pero mal nos datos de proba ou validación.
-
Complexidade do modelo: os modelos de overfit tenden a ser excesivamente complexos, capturando ruído en lugar dos patróns subxacentes.
-
Visualizacións: os gráficos como as curvas de aprendizaxe que mostran o rendemento nos conxuntos de adestramento e validación poden revelar un exceso de axuste se o rendemento do adestramento segue mellorando mentres o rendemento da validación está en mesetas ou diminúe.
Prevención e técnicas para mitigar o sobreajuste
-
Validación cruzada: técnicas como a validación cruzada de veces en k poden axudar a avaliar o rendemento do modelo en diferentes subconxuntos de datos, garantindo que se xeneralice ben.
-
Train-Validation-Test Split: dividir os datos en conxuntos distintos para adestramento, validación e probas garante que o modelo se avalía en datos non vistos.
-
Selección de funcións: utiliza só as funcións máis relevantes para adestrar o modelo, evitando o ruído de atributos menos informativos.
-
Regularización: técnicas como a regularización L1 ou L2 engaden termos de penalización á función de perda do modelo, desalentando modelos demasiado complexos.
-
Parada anticipada: supervisa o rendemento do modelo nun conxunto de validación e detén o adestramento cando o rendemento comeza a degradarse, evitando que se optimice en exceso os datos de adestramento.
-
Métodos de conxunto: o uso de técnicas como ensacar, aumentar ou apilar pode axudar a reducir o sobreajuste combinando as predicións de varios modelos.
-
Aumento de datos: para certos tipos de modelos, a xeración de datos adicionais de adestramento aplicando transformacións ou perturbacións aos datos existentes pode axudar a evitar o sobreajuste.
Equilibrar a complexidade do modelo, o tamaño do conxunto de datos e as técnicas de regularización é fundamental para evitar o sobreajuste ao tempo que se garante que o modelo se xeneralice ben a datos novos e non vistos.