A sobreadaptación e a subadaptación son problemas comúns nos modelos de aprendizaxe automática que afectan á súa capacidade de xeneralizar ben a datos novos e non vistos.
O sobreajuste ocorre cando un modelo aprende non só os patróns subxacentes nos datos de adestramento, senón que tamén aprende o ruído e as flutuacións aleatorias presentes neses datos. Como resultado, o modelo ten un rendemento excepcional nos datos de adestramento pero non se xeneraliza a datos novos e non vistos porque esencialmente memorizou o conxunto de adestramento.
Underfitting, por outra banda, ocorre cando un modelo é demasiado sinxelo para capturar os patróns subxacentes nos datos de adestramento. Non só ten un rendemento deficiente nos datos de adestramento, senón tamén nos novos datos porque non consegue aprender as relacións e complexidades presentes nos datos.
Como evitar o exceso e a subadaptación
-
Validación cruzada: use técnicas como a validación cruzada de veces en k para avaliar o rendemento do modelo en diferentes subconxuntos de datos. Axuda a estimar o ben que o modelo se xeneralizará a novos datos.
-
División de probas de tren: divide os teus datos en conxuntos de adestramento e probas separados. Adestra o modelo no conxunto de adestramento e avalía o seu rendemento no conxunto de probas. Isto axuda a avaliar o ben que o modelo xeneraliza aos datos non vistos.
-
Selección/redución de características: reduce a complexidade do modelo seleccionando só as características máis relevantes ou utilizando técnicas como a análise de compoñentes principais (PCA) para reducir a dimensionalidade dos datos.
-
Regularización: técnicas como a regularización L1 ou L2 engaden penalizacións pola complexidade á función obxectivo do modelo, evitando que se axuste demasiado ao ruído dos datos.
-
Métodos de conxunto: combina varios modelos para reducir o sobreajuste e o subajuste. Técnicas como ensacar, aumentar ou apilar usan varios modelos para mellorar o rendemento xeral e a xeneralización.
-
Axuste de hiperparámetros: axusta os hiperparámetros do modelo (como a taxa de aprendizaxe, a profundidade das árbores nas árbores de decisión, etc.) usando técnicas como busca en cuadrícula ou busca aleatoria para atopar a configuración óptima que equilibre o sesgo e varianza.
-
Parada anticipada: supervisa o rendemento do modelo nun conxunto de validación durante o adestramento e detén o proceso de adestramento cando o rendemento comeza a degradarse, evitando así un sobreajuste.
-
Máis datos: aumentar a cantidade de datos pode axudar ao modelo a xeneralizarse mellor ao proporcionar unha mostra máis diversa e representativa da distribución subxacente.
Atopar o equilibrio correcto entre a complexidade do modelo e a xeneralización é fundamental para evitar o sobreadaptado e o subajuste, e estas técnicas axudan a conseguir ese equilibrio.