Em problemas de classificação, eu prefiro ter classes desbalanceadas e do que duplicar dados e obter estimativas não confiáveis.

Se for extremamente desbalancedo (Y=1 em menos de 1% dos casos, p. ex.) você pode tentar usar um algoritmo de anomaly detection (machine learning). Aí você usa todos os casos Y=1 na validação cruzada. Mas sua amostra é grande o suficiente?



Em 8 de novembro de 2012 17:15, Fernando Colugnati <fcolugnati@gmail.com> escreveu:
Na verdade eu não conheço muito sobre métodos de classificação, mas para utilização dos modelos logísticos não há qualquer suposição deste tipo...
Abs


Em 7 de novembro de 2012 00:22, Vinicius Brito Rocha <viniciusbritor@gmail.com> escreveu:

Fernando,

sim. o modelo é para classificação. 

O problema é que minhas classes são extremamente desbalanceadas. 

Até onde sei recomenda-se ter classes balanceadas. E esse é exatamente o que estou trazendo a discussão. 

Você discorda disso?

Abs.

Vinicius Brito Rocha

Em 6 de novembro de 2012 22:58, Fernando Colugnati <fcolugnati@gmail.com> escreveu:
Desde quando vc precisa ter 50% de 1 e 50% de zeros para fazer uma regressão logística? Não entendi bem seu problema! Vc fala em treinamento...este modelo será para classificação?



Em 6 de novembro de 2012 23:37, viniciusbritor <viniciusbritor@gmail.com> escreveu:

amostrar com reposição toda a informação da classe alvo  , Y=1 para que tenha o mesmo tamanho da classe Y=0. 
apenas na amostra de treinamento


Enviado por Samsung Mobile

Leonard Mendonça de Assis <assis.leonard@gmail.com> escreveu:

Vinícius

o que você está chamando de reamostragem?
[]s
Leonard de Assis
http://about.me/ldeassis
Em 06/11/2012 19:14, Vinicius Brito Rocha escreveu:
Pessoal,

preciso tirar uma dúvida a respeito de regressão logistica.

Tenho uma conjunto de dados, onde existe um grande desbalanceamento nas classes da variável resposta (meu evento Y=1 a ser modelado, possui poucas observações)

O que fiz foi:

separei 70% dos dados para amostra treino e 30% para teste.

na amostra treino (70%):

  • utilizei uma re-amostragem, apenas na classe do evento (Y=1) e fiz com que as linhas desta  classe fossem re-amostradas até que a classe com resposta Y=1 possui-se a mesma quantidade de linhas da classe (Y=0)
  • Com minha base de amostra treino balanceada ajustei um modelo de regressão logistica

na amostra teste(30%):
  • calculei minhas probabilidades de respostas a partir das variáveis independentes da amostra teste.
  • arbitrei um ponto de classificação de P_CHAP>= 0,7 para classificar meu evento como classe (Y_CHAP=1) e  P_CHAP<0,7 classificar meu evento como Y_CHAP=0
  • Construi uma tabela de confusão comparando os resultados Y_CHAP e Y para comparar minha Sensitividade e 1-Especificidade.
Dúvidas:

A questão é que meus resultados estão muito ruins. Acredito que é a estrutura de dados.
  • Estou sendo questionado a respeito da técnica de re-amostragem na amostra treino para equilibrar as classes. Pois o demandante acredita que é necessário algum tipo de correção do modelo(feito a re-amostragem no ajuste da amostra treino) ao aplica-lo no  conjunto teste, que não sofreu nenhuma alteração.

Alguém tem algum material que justifique o uso de re-amostragem nos dados da amostra treino?

Abs.
--
Vinicius Brito Rocha.
Estatístico e Atuário (IM / UFRJ)
Mestre em Pesquisa Operacional (COPPE / UFRJ)


www.aplicademic.blogspot.com
http://twitter.com/viniciusbritor

"Não se preocupe muito com as suas dificuldades em Matemática, posso assegurar-lhe que as minhas são ainda maiores." - Albert Einstein.




_______________________________________________
R-br mailing list
R-br@listas.c3sl.ufpr.br
https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.


_______________________________________________
R-br mailing list
R-br@listas.c3sl.ufpr.br
https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.



--
Fernando A.B. Colugnati





--
Vinicius Brito Rocha.
Estatístico e Atuário (IM / UFRJ)
Mestre em Pesquisa Operacional (COPPE / UFRJ)


www.aplicademic.blogspot.com
http://twitter.com/viniciusbritor

"Não se preocupe muito com as suas dificuldades em Matemática, posso assegurar-lhe que as minhas são ainda maiores." - Albert Einstein.





--
Fernando A.B. Colugnati



_______________________________________________
R-br mailing list
R-br@listas.c3sl.ufpr.br
https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.