O compromisso entre desvio e variância na aprendizagem automática

Atualizado em June 05, 2024 3 Minutos Leia

O compromisso entre a polarização e a variância é um conceito fundamental na aprendizagem automática que está relacionado com o desempenho e a capacidade de generalização de um modelo.

O enviesamento refere-se ao erro introduzido pela aproximação de um problema do mundo real, que pode resultar de pressupostos demasiado simplistas no algoritmo de aprendizagem. Um enviesamento elevado pode fazer com que o modelo não veja relações relevantes entre as características e os resultados pretendidos, levando a um subajuste - em queo modelo tem um desempenho fraco tanto nos dados de treino como nos dados não vistos.

A variância, por outro lado, refere-se à sensibilidade do modelo a flutuações nos dados de treino. Mede a capacidade de generalização do modelo, capturando padrões em vez de ruído. Uma variância elevada resulta frequentemente de modelos demasiado complexos que aprendem o ruído ou as flutuações aleatórias nos dados de treino, o que leva a um sobreajuste - umbom desempenhonos dados de treino mas um fraco desempenho em dados não vistos.

O compromisso ocorre porque a diminuição do enviesamento aumenta frequentemente a variância e vice-versa. O objetivo de minimizar ambos simultaneamente é um desafio e muitas vezes impossível. Por conseguinte, o objetivo é encontrar um equilíbrio ótimo que minimize o erro total em dados não vistos.

As estratégias para gerir o compromisso entre a parcialidade e a variância incluem:

Validação cruzada:

Utilizar técnicas como a validação cruzada k-fold para avaliar o desempenho do modelo em vários subconjuntos de dados. Isto ajuda a compreender se o modelo está a sofrer de um viés elevado ou de uma variância elevada.

Regularização:

Introduzir técnicas de regularização como a regularização L1 ou L2 para penalizar modelos demasiado complexos, reduzindo a variância e evitando o sobreajuste.

Seleção/redução de características:

Selecionar características relevantes e reduzir a dimensionalidade para evitar que o modelo se ajuste excessivamente ao ruído nos dados, reduzindo assim a variância.

Métodos de conjunto:

Utilizar técnicas de conjunto como bagging (e.g. Random Forests_C_ ou boosting (e.g. Gradient Boosting Machines) que combinam vários modelos para reduzir a variância, mantendo ou mesmo reduzindo o enviesamento.

Controlo da complexidade do modelo:

Ajustar a complexidade do modelo, alterando os hiperparâmetros ou utilizando modelos mais simples ou mais complexos, procurando um equilíbrio entre o enviesamento e a variância.

Análise de decomposição de viés-variância:

Analisar os componentes de enviesamento e variância separadamente para obter informações sobre o comportamento do modelo e efetuar ajustes informados.

Recolher mais dados:

Aumentar o tamanho do conjunto de dados pode ajudar o modelo a generalizar melhor, capturando mais padrões subjacentes e reduzindo a variância.

Ao compreenderem e gerirem o compromisso entre a parcialidade e a variância, os profissionais da aprendizagem automática podem desenvolver modelos que generalizam bem para dados não vistos, melhorando o desempenho geral e a fiabilidade.