Re: [R-br] Regressão logistica (conceito)

amostrar com reposição toda a informação da classe alvo , Y=1 para que tenha o mesmo tamanho da classe Y=0. apenas na amostra de treinamento Enviado por Samsung MobileLeonard Mendonça de Assis <assis.leonard@gmail.com> escreveu:Vinícius o que você está chamando de reamostragem? []s Leonard de Assis http://about.me/ldeassis Em 06/11/2012 19:14, Vinicius Brito Rocha escreveu: Pessoal, preciso tirar uma dúvida a respeito de regressão logistica. Tenho uma conjunto de dados, onde existe um grande desbalanceamento nas classes da variável resposta (meu evento Y=1 a ser modelado, possui poucas observações) O que fiz foi: separei 70% dos dados para amostra treino e 30% para teste. na amostra treino (70%): utilizei uma re-amostragem, apenas na classe do evento (Y=1) e fiz com que as linhas desta classe fossem re-amostradas até que a classe com resposta Y=1 possui-se a mesma quantidade de linhas da classe (Y=0) Com minha base de amostra treino balanceada ajustei um modelo de regressão logistica na amostra teste(30%): calculei minhas probabilidades de respostas a partir das variáveis independentes da amostra teste. arbitrei um ponto de classificação de P_CHAP>= 0,7 para classificar meu evento como classe (Y_CHAP=1) e P_CHAP<0,7 classificar meu evento como Y_CHAP=0 Construi uma tabela de confusão comparando os resultados Y_CHAP e Y para comparar minha Sensitividade e 1-Especificidade. Dúvidas: A questão é que meus resultados estão muito ruins. Acredito que é a estrutura de dados. Estou sendo questionado a respeito da técnica de re-amostragem na amostra treino para equilibrar as classes. Pois o demandante acredita que é necessário algum tipo de correção do modelo(feito a re-amostragem no ajuste da amostra treino) ao aplica-lo no conjunto teste, que não sofreu nenhuma alteração. Alguém tem algum material que justifique o uso de re-amostragem nos dados da amostra treino? Abs. -- Vinicius Brito Rocha. Estatístico e Atuário (IM / UFRJ) Mestre em Pesquisa Operacional (COPPE / UFRJ) www.aplicademic.blogspot.com http://twitter.com/viniciusbritor "Não se preocupe muito com as suas dificuldades em Matemática, posso assegurar-lhe que as minhas são ainda maiores." - Albert Einstein. _______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.

Desde quando vc precisa ter 50% de 1 e 50% de zeros para fazer uma regressão logística? Não entendi bem seu problema! Vc fala em treinamento...este modelo será para classificação? Em 6 de novembro de 2012 23:37, viniciusbritor <viniciusbritor@gmail.com>escreveu:
amostrar com reposição toda a informação da classe alvo , Y=1 para que tenha o mesmo tamanho da classe Y=0. apenas na amostra de treinamento
Enviado por Samsung Mobile
Leonard Mendonça de Assis <assis.leonard@gmail.com> escreveu:
Vinícius
o que você está chamando de reamostragem?
[]s Leonard de Assishttp://about.me/ldeassis
Em 06/11/2012 19:14, Vinicius Brito Rocha escreveu:
Pessoal,
preciso tirar uma dúvida a respeito de regressão logistica.
Tenho uma conjunto de dados, onde existe um grande desbalanceamento nas classes da variável resposta (meu evento Y=1 a ser modelado, possui poucas observações)
O que fiz foi:
separei 70% dos dados para amostra treino e 30% para teste.
na amostra treino (70%):
- utilizei uma re-amostragem, apenas na classe do evento (Y=1) e fiz com que as linhas desta classe fossem re-amostradas até que a classe com resposta Y=1 possui-se a mesma quantidade de linhas da classe (Y=0) - Com minha base de amostra treino balanceada ajustei um modelo de regressão logistica
na amostra teste(30%):
- calculei minhas probabilidades de respostas a partir das variáveis independentes da amostra teste. - arbitrei um ponto de classificação de P_CHAP>= 0,7 para classificar meu evento como classe (Y_CHAP=1) e P_CHAP<0,7 classificar meu evento como Y_CHAP=0 - Construi uma tabela de confusão comparando os resultados Y_CHAP e Y para comparar minha Sensitividade e 1-Especificidade.
Dúvidas:
A questão é que meus resultados estão muito ruins. Acredito que é a estrutura de dados.
- Estou sendo questionado a respeito da técnica de re-amostragem na amostra treino para equilibrar as classes. Pois o demandante acredita que é necessário algum tipo de correção do modelo(feito a re-amostragem no ajuste da amostra treino) ao aplica-lo no conjunto teste, que não sofreu nenhuma alteração.
Alguém tem algum material que justifique o uso de re-amostragem nos dados da amostra treino?
Abs. -- *Vinicius Brito Rocha.* *Estatístico e Atuário (IM / UFRJ)** Mestre em Pesquisa Operacional (COPPE / UFRJ)*
www.aplicademic.blogspot.com http://twitter.com/viniciusbritor
"Não se preocupe muito com as suas dificuldades em Matemática, posso assegurar-lhe que as minhas são ainda maiores." - Albert Einstein.
_______________________________________________ R-br mailing listR-br@listas.c3sl.ufpr.brhttps://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- Fernando A.B. Colugnati

Fernando, sim. o modelo é para classificação. O problema é que minhas classes são extremamente desbalanceadas. Até onde sei recomenda-se ter classes balanceadas. E esse é exatamente o que estou trazendo a discussão. Você discorda disso? Abs. Vinicius Brito Rocha Em 6 de novembro de 2012 22:58, Fernando Colugnati <fcolugnati@gmail.com>escreveu:
Desde quando vc precisa ter 50% de 1 e 50% de zeros para fazer uma regressão logística? Não entendi bem seu problema! Vc fala em treinamento...este modelo será para classificação?
Em 6 de novembro de 2012 23:37, viniciusbritor <viniciusbritor@gmail.com>escreveu:
amostrar com reposição toda a informação da classe alvo , Y=1 para que
tenha o mesmo tamanho da classe Y=0. apenas na amostra de treinamento
Enviado por Samsung Mobile
Leonard Mendonça de Assis <assis.leonard@gmail.com> escreveu:
Vinícius
o que você está chamando de reamostragem?
[]s Leonard de Assishttp://about.me/ldeassis
Em 06/11/2012 19:14, Vinicius Brito Rocha escreveu:
Pessoal,
preciso tirar uma dúvida a respeito de regressão logistica.
Tenho uma conjunto de dados, onde existe um grande desbalanceamento nas classes da variável resposta (meu evento Y=1 a ser modelado, possui poucas observações)
O que fiz foi:
separei 70% dos dados para amostra treino e 30% para teste.
na amostra treino (70%):
- utilizei uma re-amostragem, apenas na classe do evento (Y=1) e fiz com que as linhas desta classe fossem re-amostradas até que a classe com resposta Y=1 possui-se a mesma quantidade de linhas da classe (Y=0) - Com minha base de amostra treino balanceada ajustei um modelo de regressão logistica
na amostra teste(30%):
- calculei minhas probabilidades de respostas a partir das variáveis independentes da amostra teste. - arbitrei um ponto de classificação de P_CHAP>= 0,7 para classificar meu evento como classe (Y_CHAP=1) e P_CHAP<0,7 classificar meu evento como Y_CHAP=0 - Construi uma tabela de confusão comparando os resultados Y_CHAP e Y para comparar minha Sensitividade e 1-Especificidade.
Dúvidas:
A questão é que meus resultados estão muito ruins. Acredito que é a estrutura de dados.
- Estou sendo questionado a respeito da técnica de re-amostragem na amostra treino para equilibrar as classes. Pois o demandante acredita que é necessário algum tipo de correção do modelo(feito a re-amostragem no ajuste da amostra treino) ao aplica-lo no conjunto teste, que não sofreu nenhuma alteração.
Alguém tem algum material que justifique o uso de re-amostragem nos dados da amostra treino?
Abs. -- *Vinicius Brito Rocha.* *Estatístico e Atuário (IM / UFRJ)** Mestre em Pesquisa Operacional (COPPE / UFRJ)*
www.aplicademic.blogspot.com http://twitter.com/viniciusbritor
"Não se preocupe muito com as suas dificuldades em Matemática, posso assegurar-lhe que as minhas são ainda maiores." - Albert Einstein.
_______________________________________________ R-br mailing listR-br@listas.c3sl.ufpr.brhttps://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- Fernando A.B. Colugnati
-- *Vinicius Brito Rocha.* *Estatístico e Atuário (IM / UFRJ)** Mestre em Pesquisa Operacional (COPPE / UFRJ)* www.aplicademic.blogspot.com http://twitter.com/viniciusbritor "Não se preocupe muito com as suas dificuldades em Matemática, posso assegurar-lhe que as minhas são ainda maiores." - Albert Einstein.

Na verdade eu não conheço muito sobre métodos de classificação, mas para utilização dos modelos logísticos não há qualquer suposição deste tipo... Abs Em 7 de novembro de 2012 00:22, Vinicius Brito Rocha < viniciusbritor@gmail.com> escreveu:
Fernando,
sim. o modelo é para classificação.
O problema é que minhas classes são extremamente desbalanceadas.
Até onde sei recomenda-se ter classes balanceadas. E esse é exatamente o que estou trazendo a discussão.
Você discorda disso?
Abs.
Vinicius Brito Rocha
Em 6 de novembro de 2012 22:58, Fernando Colugnati <fcolugnati@gmail.com>escreveu:
Desde quando vc precisa ter 50% de 1 e 50% de zeros para fazer uma regressão logística? Não entendi bem seu problema! Vc fala em treinamento...este modelo será para classificação?
Em 6 de novembro de 2012 23:37, viniciusbritor <viniciusbritor@gmail.com>escreveu:
amostrar com reposição toda a informação da classe alvo , Y=1 para que
tenha o mesmo tamanho da classe Y=0. apenas na amostra de treinamento
Enviado por Samsung Mobile
Leonard Mendonça de Assis <assis.leonard@gmail.com> escreveu:
Vinícius
o que você está chamando de reamostragem?
[]s Leonard de Assishttp://about.me/ldeassis
Em 06/11/2012 19:14, Vinicius Brito Rocha escreveu:
Pessoal,
preciso tirar uma dúvida a respeito de regressão logistica.
Tenho uma conjunto de dados, onde existe um grande desbalanceamento nas classes da variável resposta (meu evento Y=1 a ser modelado, possui poucas observações)
O que fiz foi:
separei 70% dos dados para amostra treino e 30% para teste.
na amostra treino (70%):
- utilizei uma re-amostragem, apenas na classe do evento (Y=1) e fiz com que as linhas desta classe fossem re-amostradas até que a classe com resposta Y=1 possui-se a mesma quantidade de linhas da classe (Y=0) - Com minha base de amostra treino balanceada ajustei um modelo de regressão logistica
na amostra teste(30%):
- calculei minhas probabilidades de respostas a partir das variáveis independentes da amostra teste. - arbitrei um ponto de classificação de P_CHAP>= 0,7 para classificar meu evento como classe (Y_CHAP=1) e P_CHAP<0,7 classificar meu evento como Y_CHAP=0 - Construi uma tabela de confusão comparando os resultados Y_CHAP e Y para comparar minha Sensitividade e 1-Especificidade.
Dúvidas:
A questão é que meus resultados estão muito ruins. Acredito que é a estrutura de dados.
- Estou sendo questionado a respeito da técnica de re-amostragem na amostra treino para equilibrar as classes. Pois o demandante acredita que é necessário algum tipo de correção do modelo(feito a re-amostragem no ajuste da amostra treino) ao aplica-lo no conjunto teste, que não sofreu nenhuma alteração.
Alguém tem algum material que justifique o uso de re-amostragem nos dados da amostra treino?
Abs. -- *Vinicius Brito Rocha.* *Estatístico e Atuário (IM / UFRJ)** Mestre em Pesquisa Operacional (COPPE / UFRJ)*
www.aplicademic.blogspot.com http://twitter.com/viniciusbritor
"Não se preocupe muito com as suas dificuldades em Matemática, posso assegurar-lhe que as minhas são ainda maiores." - Albert Einstein.
_______________________________________________ R-br mailing listR-br@listas.c3sl.ufpr.brhttps://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- Fernando A.B. Colugnati
-- *Vinicius Brito Rocha.* *Estatístico e Atuário (IM / UFRJ)** Mestre em Pesquisa Operacional (COPPE / UFRJ)*
www.aplicademic.blogspot.com http://twitter.com/viniciusbritor
"Não se preocupe muito com as suas dificuldades em Matemática, posso assegurar-lhe que as minhas são ainda maiores." - Albert Einstein.
-- Fernando A.B. Colugnati

Em problemas de classificação, eu prefiro ter classes desbalanceadas e do que duplicar dados e obter estimativas não confiáveis. Se for extremamente desbalancedo (Y=1 em menos de 1% dos casos, p. ex.) você pode tentar usar um algoritmo de *anomaly detection* (machine learning). Aí você usa todos os casos Y=1 na validação cruzada. Mas sua amostra é grande o suficiente? Em 8 de novembro de 2012 17:15, Fernando Colugnati <fcolugnati@gmail.com>escreveu:
Na verdade eu não conheço muito sobre métodos de classificação, mas para utilização dos modelos logísticos não há qualquer suposição deste tipo... Abs
Em 7 de novembro de 2012 00:22, Vinicius Brito Rocha < viniciusbritor@gmail.com> escreveu:
Fernando,
sim. o modelo é para classificação.
O problema é que minhas classes são extremamente desbalanceadas.
Até onde sei recomenda-se ter classes balanceadas. E esse é exatamente o que estou trazendo a discussão.
Você discorda disso?
Abs.
Vinicius Brito Rocha
Em 6 de novembro de 2012 22:58, Fernando Colugnati <fcolugnati@gmail.com>escreveu:
Desde quando vc precisa ter 50% de 1 e 50% de zeros para fazer uma regressão logística? Não entendi bem seu problema! Vc fala em treinamento...este modelo será para classificação?
Em 6 de novembro de 2012 23:37, viniciusbritor <viniciusbritor@gmail.com
escreveu:
amostrar com reposição toda a informação da classe alvo , Y=1 para que
tenha o mesmo tamanho da classe Y=0. apenas na amostra de treinamento
Enviado por Samsung Mobile
Leonard Mendonça de Assis <assis.leonard@gmail.com> escreveu:
Vinícius
o que você está chamando de reamostragem?
[]s Leonard de Assishttp://about.me/ldeassis
Em 06/11/2012 19:14, Vinicius Brito Rocha escreveu:
Pessoal,
preciso tirar uma dúvida a respeito de regressão logistica.
Tenho uma conjunto de dados, onde existe um grande desbalanceamento nas classes da variável resposta (meu evento Y=1 a ser modelado, possui poucas observações)
O que fiz foi:
separei 70% dos dados para amostra treino e 30% para teste.
na amostra treino (70%):
- utilizei uma re-amostragem, apenas na classe do evento (Y=1) e fiz com que as linhas desta classe fossem re-amostradas até que a classe com resposta Y=1 possui-se a mesma quantidade de linhas da classe (Y=0) - Com minha base de amostra treino balanceada ajustei um modelo de regressão logistica
na amostra teste(30%):
- calculei minhas probabilidades de respostas a partir das variáveis independentes da amostra teste. - arbitrei um ponto de classificação de P_CHAP>= 0,7 para classificar meu evento como classe (Y_CHAP=1) e P_CHAP<0,7 classificar meu evento como Y_CHAP=0 - Construi uma tabela de confusão comparando os resultados Y_CHAP e Y para comparar minha Sensitividade e 1-Especificidade.
Dúvidas:
A questão é que meus resultados estão muito ruins. Acredito que é a estrutura de dados.
- Estou sendo questionado a respeito da técnica de re-amostragem na amostra treino para equilibrar as classes. Pois o demandante acredita que é necessário algum tipo de correção do modelo(feito a re-amostragem no ajuste da amostra treino) ao aplica-lo no conjunto teste, que não sofreu nenhuma alteração.
Alguém tem algum material que justifique o uso de re-amostragem nos dados da amostra treino?
Abs. -- *Vinicius Brito Rocha.* *Estatístico e Atuário (IM / UFRJ)** Mestre em Pesquisa Operacional (COPPE / UFRJ)*
www.aplicademic.blogspot.com http://twitter.com/viniciusbritor
"Não se preocupe muito com as suas dificuldades em Matemática, posso assegurar-lhe que as minhas são ainda maiores." - Albert Einstein.
_______________________________________________ R-br mailing listR-br@listas.c3sl.ufpr.brhttps://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- Fernando A.B. Colugnati
-- *Vinicius Brito Rocha.* *Estatístico e Atuário (IM / UFRJ)** Mestre em Pesquisa Operacional (COPPE / UFRJ)*
www.aplicademic.blogspot.com http://twitter.com/viniciusbritor
"Não se preocupe muito com as suas dificuldades em Matemática, posso assegurar-lhe que as minhas são ainda maiores." - Albert Einstein.
-- Fernando A.B. Colugnati
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.

Estou até agora tentando entender porque você precisa balancear. Já mexi com isso e nunca precisei fazer tal manobra []s Leonard de Assis http://about.me/ldeassis Em 08/11/2012 17:15, Fernando Colugnati escreveu:
Na verdade eu não conheço muito sobre métodos de classificação, mas para utilização dos modelos logísticos não há qualquer suposição deste tipo... Abs
Em 7 de novembro de 2012 00:22, Vinicius Brito Rocha <viniciusbritor@gmail.com <mailto:viniciusbritor@gmail.com>> escreveu:
Fernando,
sim. o modelo é para classificação.
O problema é que minhas classes são extremamente desbalanceadas.
Até onde sei recomenda-se ter classes balanceadas. E esse é exatamente o que estou trazendo a discussão.
Você discorda disso?
Abs.
Vinicius Brito Rocha
Em 6 de novembro de 2012 22:58, Fernando Colugnati <fcolugnati@gmail.com <mailto:fcolugnati@gmail.com>> escreveu:
Desde quando vc precisa ter 50% de 1 e 50% de zeros para fazer uma regressão logística? Não entendi bem seu problema! Vc fala em treinamento...este modelo será para classificação?
Em 6 de novembro de 2012 23:37, viniciusbritor <viniciusbritor@gmail.com <mailto:viniciusbritor@gmail.com>> escreveu:
amostrar com reposição toda a informação da classe alvo , Y=1 para que tenha o mesmo tamanho da classe Y=0. apenas na amostra de treinamento
Enviado por Samsung Mobile
Leonard Mendonça de Assis <assis.leonard@gmail.com <mailto:assis.leonard@gmail.com>> escreveu:
Vinícius
o que você está chamando de reamostragem?
[]s Leonard de Assis http://about.me/ldeassis
Em 06/11/2012 19:14, Vinicius Brito Rocha escreveu:
Pessoal,
preciso tirar uma dúvida a respeito de regressão logistica.
Tenho uma conjunto de dados, onde existe um grande desbalanceamento nas classes da variável resposta (meu evento Y=1 a ser modelado, possui poucas observações)
O que fiz foi:
separei 70% dos dados para amostra treino e 30% para teste.
na amostra treino (70%):
* utilizei uma re-amostragem, apenas na classe do evento (Y=1) e fiz com que as linhas desta classe fossem re-amostradas até que a classe com resposta Y=1 possui-se a mesma quantidade de linhas da classe (Y=0) * Com minha base de amostra treino balanceada ajustei um modelo de regressão logistica
na amostra teste(30%):
* calculei minhas probabilidades de respostas a partir das variáveis independentes da amostra teste. * arbitrei um ponto de classificação de P_CHAP>= 0,7 para classificar meu evento como classe (Y_CHAP=1) e P_CHAP<0,7 classificar meu evento como Y_CHAP=0 * Construi uma tabela de confusão comparando os resultados Y_CHAP e Y para comparar minha Sensitividade e 1-Especificidade.
Dúvidas:
A questão é que meus resultados estão muito ruins. Acredito que é a estrutura de dados.
* Estou sendo questionado a respeito da técnica de re-amostragem na amostra treino para equilibrar as classes. Pois o demandante acredita que é necessário algum tipo de correção do modelo(feito a re-amostragem no ajuste da amostra treino) ao aplica-lo no conjunto teste, que não sofreu nenhuma alteração.
Alguém tem algum material que justifique o uso de re-amostragem nos dados da amostra treino?
Abs. -- /Vinicius Brito Rocha./ /Estatístico e Atuário (IM / UFRJ)// Mestre em Pesquisa Operacional (COPPE / UFRJ)/
www.aplicademic.blogspot.com <http://www.aplicademic.blogspot.com> http://twitter.com/viniciusbritor
"Não se preocupe muito com as suas dificuldades em Matemática, posso assegurar-lhe que as minhas são ainda maiores." - Albert Einstein.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br <mailto:R-br@listas.c3sl.ufpr.br> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br <mailto:R-br@listas.c3sl.ufpr.br> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- Fernando A.B. Colugnati
-- /Vinicius Brito Rocha./ /Estatístico e Atuário (IM / UFRJ)// Mestre em Pesquisa Operacional (COPPE / UFRJ)/
www.aplicademic.blogspot.com <http://www.aplicademic.blogspot.com> http://twitter.com/viniciusbritor
"Não se preocupe muito com as suas dificuldades em Matemática, posso assegurar-lhe que as minhas são ainda maiores." - Albert Einstein.
-- Fernando A.B. Colugnati
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.

Leonard, em problemas de classificação, classes muito desbalanceadas comprometem o poder de classificação do classificador. Estou com um problema de valor extremo. Se não me engano em redes neurais isto não é exatamente um problema. Lucas, A questão é que não estou trabalhando com o R. Estou usando o SAS e o resultado (equação) será implementado em um software. Preciso da equação, por isso não estou usando RN, fora o fato de que o SAS que uso é o Eguide, sem modulo de data mining. Abs. Em 8 de novembro de 2012 21:07, Leonard Mendonça de Assis < assis.leonard@gmail.com> escreveu:
Estou até agora tentando entender porque você precisa balancear. Já mexi com isso e nunca precisei fazer tal manobra
[]s Leonard de Assishttp://about.me/ldeassis
Em 08/11/2012 17:15, Fernando Colugnati escreveu:
Na verdade eu não conheço muito sobre métodos de classificação, mas para utilização dos modelos logísticos não há qualquer suposição deste tipo... Abs
Em 7 de novembro de 2012 00:22, Vinicius Brito Rocha < viniciusbritor@gmail.com> escreveu:
Fernando,
sim. o modelo é para classificação.
O problema é que minhas classes são extremamente desbalanceadas.
Até onde sei recomenda-se ter classes balanceadas. E esse é exatamente o que estou trazendo a discussão.
Você discorda disso?
Abs.
Vinicius Brito Rocha
Em 6 de novembro de 2012 22:58, Fernando Colugnati <fcolugnati@gmail.com
escreveu:
Desde quando vc precisa ter 50% de 1 e 50% de zeros para fazer uma regressão logística? Não entendi bem seu problema! Vc fala em treinamento...este modelo será para classificação?
Em 6 de novembro de 2012 23:37, viniciusbritor <viniciusbritor@gmail.com
escreveu:
amostrar com reposição toda a informação da classe alvo , Y=1 para
que tenha o mesmo tamanho da classe Y=0. apenas na amostra de treinamento
Enviado por Samsung Mobile
Leonard Mendonça de Assis <assis.leonard@gmail.com> escreveu:
Vinícius
o que você está chamando de reamostragem?
[]s Leonard de Assishttp://about.me/ldeassis
Em 06/11/2012 19:14, Vinicius Brito Rocha escreveu:
Pessoal,
preciso tirar uma dúvida a respeito de regressão logistica.
Tenho uma conjunto de dados, onde existe um grande desbalanceamento nas classes da variável resposta (meu evento Y=1 a ser modelado, possui poucas observações)
O que fiz foi:
separei 70% dos dados para amostra treino e 30% para teste.
na amostra treino (70%):
- utilizei uma re-amostragem, apenas na classe do evento (Y=1) e fiz com que as linhas desta classe fossem re-amostradas até que a classe com resposta Y=1 possui-se a mesma quantidade de linhas da classe (Y=0) - Com minha base de amostra treino balanceada ajustei um modelo de regressão logistica
na amostra teste(30%):
- calculei minhas probabilidades de respostas a partir das variáveis independentes da amostra teste. - arbitrei um ponto de classificação de P_CHAP>= 0,7 para classificar meu evento como classe (Y_CHAP=1) e P_CHAP<0,7 classificar meu evento como Y_CHAP=0 - Construi uma tabela de confusão comparando os resultados Y_CHAP e Y para comparar minha Sensitividade e 1-Especificidade.
Dúvidas:
A questão é que meus resultados estão muito ruins. Acredito que é a estrutura de dados.
- Estou sendo questionado a respeito da técnica de re-amostragem na amostra treino para equilibrar as classes. Pois o demandante acredita que é necessário algum tipo de correção do modelo(feito a re-amostragem no ajuste da amostra treino) ao aplica-lo no conjunto teste, que não sofreu nenhuma alteração.
Alguém tem algum material que justifique o uso de re-amostragem nos dados da amostra treino?
Abs. -- *Vinicius Brito Rocha.* *Estatístico e Atuário (IM / UFRJ)** Mestre em Pesquisa Operacional (COPPE / UFRJ)*
www.aplicademic.blogspot.com http://twitter.com/viniciusbritor
"Não se preocupe muito com as suas dificuldades em Matemática, posso assegurar-lhe que as minhas são ainda maiores." - Albert Einstein.
_______________________________________________ R-br mailing listR-br@listas.c3sl.ufpr.brhttps://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- Fernando A.B. Colugnati
-- *Vinicius Brito Rocha.* *Estatístico e Atuário (IM / UFRJ)** Mestre em Pesquisa Operacional (COPPE / UFRJ)*
www.aplicademic.blogspot.com http://twitter.com/viniciusbritor
"Não se preocupe muito com as suas dificuldades em Matemática, posso assegurar-lhe que as minhas são ainda maiores." - Albert Einstein.
-- Fernando A.B. Colugnati
_______________________________________________ R-br mailing listR-br@listas.c3sl.ufpr.brhttps://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- *Vinicius Brito Rocha.* *Estatístico e Atuário (IM / UFRJ)** Mestre em Pesquisa Operacional (COPPE / UFRJ)* www.aplicademic.blogspot.com http://twitter.com/viniciusbritor "Não se preocupe muito com as suas dificuldades em Matemática, posso assegurar-lhe que as minhas são ainda maiores." - Albert Einstein.

Liga no 0800 do SAS então. Em 08/11/2012 23:53, "Vinicius Brito Rocha" <viniciusbritor@gmail.com> escreveu:
Leonard,
em problemas de classificação, classes muito desbalanceadas comprometem o poder de classificação do classificador. Estou com um problema de valor extremo.
Se não me engano em redes neurais isto não é exatamente um problema.
Lucas, A questão é que não estou trabalhando com o R. Estou usando o SAS e o resultado (equação) será implementado em um software. Preciso da equação, por isso não estou usando RN, fora o fato de que o SAS que uso é o Eguide, sem modulo de data mining.
Abs.
Em 8 de novembro de 2012 21:07, Leonard Mendonça de Assis < assis.leonard@gmail.com> escreveu:
Estou até agora tentando entender porque você precisa balancear. Já mexi com isso e nunca precisei fazer tal manobra
[]s Leonard de Assishttp://about.me/ldeassis
Em 08/11/2012 17:15, Fernando Colugnati escreveu:
Na verdade eu não conheço muito sobre métodos de classificação, mas para utilização dos modelos logísticos não há qualquer suposição deste tipo... Abs
Em 7 de novembro de 2012 00:22, Vinicius Brito Rocha < viniciusbritor@gmail.com> escreveu:
Fernando,
sim. o modelo é para classificação.
O problema é que minhas classes são extremamente desbalanceadas.
Até onde sei recomenda-se ter classes balanceadas. E esse é exatamente o que estou trazendo a discussão.
Você discorda disso?
Abs.
Vinicius Brito Rocha
Em 6 de novembro de 2012 22:58, Fernando Colugnati < fcolugnati@gmail.com> escreveu:
Desde quando vc precisa ter 50% de 1 e 50% de zeros para fazer uma regressão logística? Não entendi bem seu problema! Vc fala em treinamento...este modelo será para classificação?
Em 6 de novembro de 2012 23:37, viniciusbritor < viniciusbritor@gmail.com> escreveu:
amostrar com reposição toda a informação da classe alvo , Y=1 para
que tenha o mesmo tamanho da classe Y=0. apenas na amostra de treinamento
Enviado por Samsung Mobile
Leonard Mendonça de Assis <assis.leonard@gmail.com> escreveu:
Vinícius
o que você está chamando de reamostragem?
[]s Leonard de Assishttp://about.me/ldeassis
Em 06/11/2012 19:14, Vinicius Brito Rocha escreveu:
Pessoal,
preciso tirar uma dúvida a respeito de regressão logistica.
Tenho uma conjunto de dados, onde existe um grande desbalanceamento nas classes da variável resposta (meu evento Y=1 a ser modelado, possui poucas observações)
O que fiz foi:
separei 70% dos dados para amostra treino e 30% para teste.
na amostra treino (70%):
- utilizei uma re-amostragem, apenas na classe do evento (Y=1) e fiz com que as linhas desta classe fossem re-amostradas até que a classe com resposta Y=1 possui-se a mesma quantidade de linhas da classe (Y=0) - Com minha base de amostra treino balanceada ajustei um modelo de regressão logistica
na amostra teste(30%):
- calculei minhas probabilidades de respostas a partir das variáveis independentes da amostra teste. - arbitrei um ponto de classificação de P_CHAP>= 0,7 para classificar meu evento como classe (Y_CHAP=1) e P_CHAP<0,7 classificar meu evento como Y_CHAP=0 - Construi uma tabela de confusão comparando os resultados Y_CHAP e Y para comparar minha Sensitividade e 1-Especificidade.
Dúvidas:
A questão é que meus resultados estão muito ruins. Acredito que é a estrutura de dados.
- Estou sendo questionado a respeito da técnica de re-amostragem na amostra treino para equilibrar as classes. Pois o demandante acredita que é necessário algum tipo de correção do modelo(feito a re-amostragem no ajuste da amostra treino) ao aplica-lo no conjunto teste, que não sofreu nenhuma alteração.
Alguém tem algum material que justifique o uso de re-amostragem nos dados da amostra treino?
Abs. -- *Vinicius Brito Rocha.* *Estatístico e Atuário (IM / UFRJ)** Mestre em Pesquisa Operacional (COPPE / UFRJ)*
www.aplicademic.blogspot.com http://twitter.com/viniciusbritor
"Não se preocupe muito com as suas dificuldades em Matemática, posso assegurar-lhe que as minhas são ainda maiores." - Albert Einstein.
_______________________________________________ R-br mailing listR-br@listas.c3sl.ufpr.brhttps://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- Fernando A.B. Colugnati
-- *Vinicius Brito Rocha.* *Estatístico e Atuário (IM / UFRJ)** Mestre em Pesquisa Operacional (COPPE / UFRJ)*
www.aplicademic.blogspot.com http://twitter.com/viniciusbritor
"Não se preocupe muito com as suas dificuldades em Matemática, posso assegurar-lhe que as minhas são ainda maiores." - Albert Einstein.
-- Fernando A.B. Colugnati
_______________________________________________ R-br mailing listR-br@listas.c3sl.ufpr.brhttps://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- *Vinicius Brito Rocha.* *Estatístico e Atuário (IM / UFRJ)** Mestre em Pesquisa Operacional (COPPE / UFRJ)*
www.aplicademic.blogspot.com http://twitter.com/viniciusbritor
"Não se preocupe muito com as suas dificuldades em Matemática, posso assegurar-lhe que as minhas são ainda maiores." - Albert Einstein.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
participantes (5)
-
Fernando Colugnati
-
Leonard Mendonça de Assis
-
Lucas Cusinato
-
Vinicius Brito Rocha
-
viniciusbritor