Pessoal,

preciso tirar uma dúvida a respeito de regressão logistica.

Tenho uma conjunto de dados, onde existe um grande desbalanceamento nas classes da variável resposta (meu evento Y=1 a ser modelado, possui poucas observações)

O que fiz foi:

separei 70% dos dados para amostra treino e 30% para teste.

na amostra treino (70%):


na amostra teste(30%):
Dúvidas:

A questão é que meus resultados estão muito ruins. Acredito que é a estrutura de dados.
  • Estou sendo questionado a respeito da técnica de re-amostragem na amostra treino para equilibrar as classes. Pois o demandante acredita que é necessário algum tipo de correção do modelo(feito a re-amostragem no ajuste da amostra treino) ao aplica-lo no  conjunto teste, que não sofreu nenhuma alteração.

Alguém tem algum material que justifique o uso de re-amostragem nos dados da amostra treino?

Abs.
--
Vinicius Brito Rocha.
Estatístico e Atuário (IM / UFRJ)
Mestre em Pesquisa Operacional (COPPE / UFRJ)


www.aplicademic.blogspot.com
http://twitter.com/viniciusbritor

"Não se preocupe muito com as suas dificuldades em Matemática, posso assegurar-lhe que as minhas são ainda maiores." - Albert Einstein.