[R-br] Regressão logistica (conceito)

Vinicius Brito Rocha viniciusbritor em gmail.com
Quinta Novembro 8 23:53:23 BRST 2012


Leonard,

em problemas de classificação, classes muito desbalanceadas comprometem o
poder de classificação do classificador. Estou com um problema de valor
extremo.


Se não me engano em redes neurais isto não é exatamente um problema.

Lucas,
A questão é que não estou trabalhando com o R. Estou usando o SAS e o
resultado (equação) será implementado em um software. Preciso da equação,
por isso não estou usando RN, fora o fato de que o SAS que uso é o Eguide,
sem modulo de data mining.

Abs.

Em 8 de novembro de 2012 21:07, Leonard Mendonça de Assis <
assis.leonard em gmail.com> escreveu:

>  Estou até agora tentando entender porque você precisa balancear.
> Já mexi com isso e nunca precisei fazer tal manobra
>
> []s
> Leonard de Assishttp://about.me/ldeassis
>
> Em 08/11/2012 17:15, Fernando Colugnati escreveu:
>
> Na verdade eu não conheço muito sobre métodos de classificação, mas para
> utilização dos modelos logísticos não há qualquer suposição deste tipo...
> Abs
>
>
> Em 7 de novembro de 2012 00:22, Vinicius Brito Rocha <
> viniciusbritor em gmail.com> escreveu:
>
>> Fernando,
>>
>>  sim. o modelo é para classificação.
>>
>>  O problema é que minhas classes são extremamente desbalanceadas.
>>
>>  Até onde sei recomenda-se ter classes balanceadas. E esse é exatamente
>> o que estou trazendo a discussão.
>>
>>  Você discorda disso?
>>
>>  Abs.
>>
>>  Vinicius Brito Rocha
>>
>>  Em 6 de novembro de 2012 22:58, Fernando Colugnati <fcolugnati em gmail.com
>> > escreveu:
>>
>>> Desde quando vc precisa ter 50% de 1 e 50% de zeros para fazer uma
>>> regressão logística? Não entendi bem seu problema! Vc fala em
>>> treinamento...este modelo será para classificação?
>>>
>>>
>>>
>>> Em 6 de novembro de 2012 23:37, viniciusbritor <viniciusbritor em gmail.com
>>> > escreveu:
>>>
>>>  amostrar com reposição toda a informação da classe alvo  , Y=1 para
>>>> que tenha o mesmo tamanho da classe Y=0.
>>>> apenas na amostra de treinamento
>>>>
>>>>
>>>>   Enviado por Samsung Mobile
>>>>
>>>> Leonard Mendonça de Assis <assis.leonard em gmail.com> escreveu:
>>>>
>>>> Vinícius
>>>>
>>>> o que você está chamando de reamostragem?
>>>>
>>>> []s
>>>> Leonard de Assishttp://about.me/ldeassis
>>>>
>>>> Em 06/11/2012 19:14, Vinicius Brito Rocha escreveu:
>>>>
>>>> Pessoal,
>>>>
>>>>  preciso tirar uma dúvida a respeito de regressão logistica.
>>>>
>>>>  Tenho uma conjunto de dados, onde existe um grande desbalanceamento
>>>> nas classes da variável resposta (meu evento Y=1 a ser modelado, possui
>>>> poucas observações)
>>>>
>>>>  O que fiz foi:
>>>>
>>>>  separei 70% dos dados para amostra treino e 30% para teste.
>>>>
>>>>  na amostra treino (70%):
>>>>
>>>>
>>>>    - utilizei uma re-amostragem, apenas na classe do evento (Y=1) e
>>>>    fiz com que as linhas desta  classe fossem re-amostradas até que a classe
>>>>    com resposta Y=1 possui-se a mesma quantidade de linhas da classe (Y=0)
>>>>    - Com minha base de amostra treino balanceada ajustei um modelo de
>>>>    regressão logistica
>>>>
>>>>
>>>>  na amostra teste(30%):
>>>>
>>>>    - calculei minhas probabilidades de respostas a partir das
>>>>    variáveis independentes da amostra teste.
>>>>    - arbitrei um ponto de classificação de P_CHAP>= 0,7 para
>>>>    classificar meu evento como classe (Y_CHAP=1) e  P_CHAP<0,7 classificar meu
>>>>    evento como Y_CHAP=0
>>>>    - Construi uma tabela de confusão comparando os resultados Y_CHAP e
>>>>    Y para comparar minha Sensitividade e 1-Especificidade.
>>>>
>>>> Dúvidas:
>>>>
>>>>  A questão é que meus resultados estão muito ruins. Acredito que é a
>>>> estrutura de dados.
>>>>
>>>>    - Estou sendo questionado a respeito da técnica de re-amostragem na
>>>>    amostra treino para equilibrar as classes. Pois o demandante acredita que é
>>>>    necessário algum tipo de correção do modelo(feito a re-amostragem no ajuste
>>>>    da amostra treino) ao aplica-lo no  conjunto teste, que não sofreu nenhuma
>>>>    alteração.
>>>>
>>>>
>>>>   Alguém tem algum material que justifique o uso de re-amostragem nos
>>>> dados da amostra treino?
>>>>
>>>>  Abs.
>>>> --
>>>> *Vinicius Brito Rocha.*
>>>> *Estatístico e Atuário (IM / UFRJ)**
>>>> Mestre em Pesquisa Operacional (COPPE / UFRJ)*
>>>>
>>>> www.aplicademic.blogspot.com
>>>> http://twitter.com/viniciusbritor
>>>>
>>>> "Não se preocupe muito com as suas dificuldades em Matemática, posso
>>>> assegurar-lhe que as minhas são ainda maiores." - Albert Einstein.
>>>>
>>>>
>>>>
>>>>
>>>> _______________________________________________
>>>> R-br mailing listR-br em listas.c3sl.ufpr.brhttps://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
>>>> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
>>>>
>>>>
>>>>
>>>> _______________________________________________
>>>> R-br mailing list
>>>> R-br em listas.c3sl.ufpr.br
>>>> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
>>>> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
>>>> código mínimo reproduzível.
>>>>
>>>
>>>
>>>
>>>  --
>>> Fernando A.B. Colugnati
>>>
>>>
>>>
>>
>>
>>  --
>> *Vinicius Brito Rocha.*
>> *Estatístico e Atuário (IM / UFRJ)**
>> Mestre em Pesquisa Operacional (COPPE / UFRJ)*
>>
>> www.aplicademic.blogspot.com
>> http://twitter.com/viniciusbritor
>>
>> "Não se preocupe muito com as suas dificuldades em Matemática, posso
>> assegurar-lhe que as minhas são ainda maiores." - Albert Einstein.
>>
>>
>>
>
>
>  --
> Fernando A.B. Colugnati
>
>
>
>
> _______________________________________________
> R-br mailing listR-br em listas.c3sl.ufpr.brhttps://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
>
>
>
> _______________________________________________
> R-br mailing list
> R-br em listas.c3sl.ufpr.br
> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
> código mínimo reproduzível.
>



-- 
*Vinicius Brito Rocha.*
*Estatístico e Atuário (IM / UFRJ)**
Mestre em Pesquisa Operacional (COPPE / UFRJ)*

www.aplicademic.blogspot.com
http://twitter.com/viniciusbritor

"Não se preocupe muito com as suas dificuldades em Matemática, posso
assegurar-lhe que as minhas são ainda maiores." - Albert Einstein.
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20121108/396d277a/attachment.html>


Mais detalhes sobre a lista de discussão R-br