Overfitting e Underfitting na aprendizagem automática

Prevenção de sobreajuste
Prevenção de subajuste
Técnicas de generalização de modelos
Overfitting e Underfitting na aprendizagem automática cover image

O sobreajuste e o subajuste são problemas comuns nos modelos de aprendizagem automática que afectam a sua capacidade de generalizar bem para dados novos e não vistos.

O sobreajuste ocorre quando um modelo aprende não só os padrões subjacentes nos dados de treino, mas também aprende o ruído e as flutuações aleatórias presentes nesses dados. Como resultado, o modelo tem um desempenho excecionalmente bom nos dados de treino, mas não consegue generalizar para dados novos e não vistos, porque essencialmente memorizou o conjunto de treino.

A subadaptação, por outro lado, ocorre quando um modelo é demasiado simples para captar os padrões subjacentes nos dados de treino. O seu desempenho é fraco não só nos dados de treino, mas também em novos dados, porque não consegue aprender as relações e complexidades presentes nos dados.

Como evitar o sobreajuste e o subajuste

  • Validação cruzada: Utilizar técnicas como a validação cruzada k-fold para avaliar o desempenho do modelo em diferentes subconjuntos de dados. Ajuda a estimar a capacidade de generalização do modelo para novos dados.

  • Divisão treino-teste: Divida os seus dados em conjuntos de treino e de teste separados. Treine o modelo no conjunto de treino e avalie o seu desempenho no conjunto de teste. Isto ajuda a avaliar a capacidade de generalização do modelo para dados não vistos.

  • Seleção/redução de características: Reduzir a complexidade do modelo seleccionando apenas as características mais relevantes ou utilizando técnicas como a análise de componentes principais (PCA) para reduzir a dimensionalidade dos dados.

  • Regularização: Técnicas como a regularização L1 ou L2 adicionam penalizações por complexidade à função objetivo do modelo, impedindo-o de se ajustar demasiado ao ruído nos dados.

  • Métodos de conjunto: Combinam vários modelos para reduzir o sobreajuste e o subajuste. Técnicas como bagging, boosting ou stacking utilizam vários modelos para melhorar o desempenho geral e a generalização.

  • Afinação de hiperparâmetros: Ajustar os hiperparâmetros do modelo (como a taxa de aprendizagem, a profundidade das árvores nas árvores de decisão, etc.) utilizando técnicas como a pesquisa em grelha ou a pesquisa aleatória para encontrar a configuração óptima que equilibra o enviesamento e a variância.

  • Paragem antecipada: Monitorizar o desempenho do modelo num conjunto de validação durante a formação e interromper o processo de formação quando o desempenho começa a degradar-se, evitando assim o sobreajuste.

  • Mais dados: Aumentar a quantidade de dados pode ajudar o modelo a generalizar melhor, fornecendo uma amostra mais diversificada e representativa da distribuição subjacente.

Encontrar o equilíbrio correto entre a complexidade e a generalização do modelo é crucial para evitar o sobreajuste e o subajuste, e estas técnicas ajudam a alcançar esse equilíbrio.


Career Services background pattern

Serviços de carreira

Contact Section background image

Vamos manter-nos em contacto

Code Labs Academy © 2025 Todos os direitos reservados.