A Validación cruzada é unha técnica utilizada para avaliar o ben que un modelo xeneraliza a datos novos e non vistos. O seu obxectivo principal é avaliar o rendemento dun modelo, evitar a sobreadaptación e proporcionar estimacións fiables do rendemento do modelo en conxuntos de datos independentes.
Metodoloxía
-
Validación cruzada de dobras en K: este método implica dividir o conxunto de datos en k subconxuntos/dobras de tamaño aproximadamente igual. O modelo adestrase k veces, utilizando cada vez k-1 dobras para adestramento e o restante para validación. Este proceso produce k modelos e estimacións de rendemento diferentes, normalmente facendo unha media dos resultados, proporcionando unha métrica de avaliación máis sólida.
-
Validación cruzada Leave-One-Out (LOOCV): en LOOCV, un punto de datos único mantense como conxunto de validación mentres que o resto dos datos úsanse para adestramento. Este proceso repítese para cada punto de datos, resultando en n iteracións (onde n = número de puntos de datos). É moi computacionalmente caro pero pode proporcionar unha estimación fiable, especialmente con conxuntos de datos máis pequenos.
Finalidade
-
Avaliación do rendemento do modelo: a validación cruzada axuda a comprender o bo rendemento dun modelo en datos non vistos, garantindo que non só memorizou o conxunto de adestramento (sobreadaptación) senón que aprendeu patróns xeneralizables.
-
Redución do sobreajuste: ao validar o modelo en diferentes subconxuntos de datos, a validación cruzada axuda a identificar e mitigar o sobreajuste. Avalía o bo rendemento do modelo en datos non vistos, minimizando as posibilidades de capturar ruído ou patróns irrelevantes.
-
Estimacións de xeneralización fiables: a validación cruzada proporciona estimacións máis fiables do rendemento dun modelo ao aproveitar varios conxuntos de validación, o que leva a avaliacións máis sólidas da capacidade do modelo para xeneralizar a novos datos.
Vantaxes e escenarios prácticos
-
K-Fold CV: é moi utilizado e axeitado para a maioría dos conxuntos de datos. Non obstante, para conxuntos de datos grandes, o custo computacional pode ser elevado.
-
LOOCV: proporciona a estimación menos sesgada pero pode ser computacionalmente custoso e pouco práctico para conxuntos de datos máis grandes debido ao elevado número de iteracións.
Escenarios
-
Conxuntos de datos pequenos: LOOCV pode ser beneficioso xa que ofrece unha estimación fiable a pesar do custo computacional.
-
Conxuntos de datos grandes: o CV dobrado en K pode ser máis práctico debido ás súas menores demandas computacionais ao tempo que ofrece estimacións sólidas.
A validación cruzada é fundamental para avaliar o rendemento do modelo, reducir o sobreajuste e estimar a capacidade de xeneralización dun modelo. A elección do método adoita depender do tamaño do conxunto de datos, dos recursos computacionais e do nivel de precisión necesario para estimar o rendemento do modelo.