Overfitting
O que é overfitting?
O que acontece na prática:
Overfitting é um problema comum em modelos estatísticos, ocorre quando um modelo está excessivamente ajustado aos dados de treinamento. Em vez de capturar os padrões gerais dos dados, o modelo começa a aprender os ruídos e variações específicas do conjunto de treinamento, o que compromete sua capacidade de generalização para novos dados
Características:
- Alta precisão no treinamento, baixa precisão nos testes: O modelo apresenta desempenho excelente no conjunto de treinamento, mas falha ao ser aplicado em novos dados.
- Modelo muito complexo: O overfitting geralmente acontece quando o modelo é mais complexo do que o necessário para o problema, com muitos parâmetros para um conjunto de dados pequeno.
Exemplo prático
Análise do caso:
Na imagem acima podemos notar um exemplo prático de overfitting.
Onde várias otimizações tem resultado de 0 ou inferior e poucas otimizações têm resultado com critério maior que 4, por exemplo. Nesse caso, tempo um modelo com altas chances de overfitting. Quando estamos criando modelos para o mercado financeiro, o principal critério deve ser se várias configurações de parâmetros mantém o modelo estável, na imagem de capa desse post, temos um modelo que, apesar de apresentar uma região com possível overfitting, porém como grandes variações de valores no parâmetro não trouxeram resultados ruins, possivelmente o modelo pode ser robusto. Como vemos na imagem:
Como evitar o Overfitting?
- Teste A/B: Um dos modos mais comum nos teste para avaliar a diferença entre a performance dos dados de treinamento (A) e a performance dos dados de teste (B). Sendo a divisão entre os dados normalmente em razões de 50/50, 70/30 ou até 80/20.
- Mais dados: Utilizar conjuntos de dados maiores pode ajudar o modelo a aprender padrões mais robustos.
- Cross-validation: Usar validação cruzada para ajustar o modelo pode prevenir o overfitting, garantindo que o modelo generalize bem para diferentes subconjuntos dos dados.