O sobreajuste e o subajuste são problemas comuns nos modelos de aprendizagem automática que afectam a sua capacidade de generalizar bem para dados novos e não vistos.
O sobreajuste ocorre quando um modelo aprende não só os padrões subjacentes nos dados de treino, mas também aprende o ruído e as flutuações aleatórias presentes nesses dados. Como resultado, o modelo tem um desempenho excecionalmente bom nos dados de treino, mas não consegue generalizar para dados novos e não vistos, porque essencialmente memorizou o conjunto de treino.
A subadaptação, por outro lado, ocorre quando um modelo é demasiado simples para captar os padrões subjacentes nos dados de treino. O seu desempenho é fraco não só nos dados de treino, mas também em novos dados, porque não consegue aprender as relações e complexidades presentes nos dados.
Como evitar o sobreajuste e o subajuste
-
Validação cruzada: Utilizar técnicas como a validação cruzada k-fold para avaliar o desempenho do modelo em diferentes subconjuntos de dados. Ajuda a estimar a capacidade de generalização do modelo para novos dados.
-
Divisão treino-teste: Divida os seus dados em conjuntos de treino e de teste separados. Treine o modelo no conjunto de treino e avalie o seu desempenho no conjunto de teste. Isto ajuda a avaliar a capacidade de generalização do modelo para dados não vistos.
-
Seleção/redução de características: Reduzir a complexidade do modelo seleccionando apenas as características mais relevantes ou utilizando técnicas como a análise de componentes principais (PCA) para reduzir a dimensionalidade dos dados.
-
Regularização: Técnicas como a regularização L1 ou L2 adicionam penalizações por complexidade à função objetivo do modelo, impedindo-o de se ajustar demasiado ao ruído nos dados.
-
Métodos de conjunto: Combinam vários modelos para reduzir o sobreajuste e o subajuste. Técnicas como bagging, boosting ou stacking utilizam vários modelos para melhorar o desempenho geral e a generalização.
-
Afinação de hiperparâmetros: Ajustar os hiperparâmetros do modelo (como a taxa de aprendizagem, a profundidade das árvores nas árvores de decisão, etc.) utilizando técnicas como a pesquisa em grelha ou a pesquisa aleatória para encontrar a configuração óptima que equilibra o enviesamento e a variância.
-
Paragem antecipada: Monitorizar o desempenho do modelo num conjunto de validação durante a formação e interromper o processo de formação quando o desempenho começa a degradar-se, evitando assim o sobreajuste.
-
Mais dados: Aumentar a quantidade de dados pode ajudar o modelo a generalizar melhor, fornecendo uma amostra mais diversificada e representativa da distribuição subjacente.
Encontrar o equilíbrio correto entre a complexidade e a generalização do modelo é crucial para evitar o sobreajuste e o subajuste, e estas técnicas ajudam a alcançar esse equilíbrio.