Leonard,<div><br></div><div>em problemas de classificação, classes muito desbalanceadas comprometem o poder de classificação do classificador. Estou com um problema de valor extremo.</div><div><br></div><div><br></div><div>
Se não me engano em redes neurais isto não é exatamente um problema.</div><div><br></div><div>Lucas,</div><div>A questão é que não estou trabalhando com o R. Estou usando o SAS e o resultado (equação) será implementado em um software. Preciso da equação, por isso não estou usando RN, fora o fato de que o SAS que uso é o Eguide, sem modulo de data mining.</div>
<div><br></div><div>Abs.</div><div><br><div class="gmail_quote">Em 8 de novembro de 2012 21:07, Leonard Mendonça de Assis <span dir="ltr"><<a href="mailto:assis.leonard@gmail.com" target="_blank">assis.leonard@gmail.com</a>></span> escreveu:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<div text="#000000" bgcolor="#FFFFFF">
<div>Estou até agora tentando entender
porque você precisa balancear.<br>
Já mexi com isso e nunca precisei fazer tal manobra<div class="im"><br>
<pre cols="72">[]s
Leonard de Assis
<a href="http://about.me/ldeassis" target="_blank">http://about.me/ldeassis</a></pre></div>
Em 08/11/2012 17:15, Fernando Colugnati escreveu:<br>
</div><div><div class="h5">
<blockquote type="cite">Na verdade eu não conheço muito sobre métodos de
classificação, mas para utilização dos modelos logísticos não há
qualquer suposição deste tipo...
<div>Abs</div>
<div class="gmail_extra"><br>
<br>
<div class="gmail_quote">Em 7 de novembro de 2012 00:22,
Vinicius Brito Rocha <span dir="ltr"><<a href="mailto:viniciusbritor@gmail.com" target="_blank">viniciusbritor@gmail.com</a>></span>
escreveu:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<div><span style="color:rgb(34,34,34);font-size:12.727272033691406px;font-family:arial,sans-serif">Fernando,</span>
<div style="color:rgb(34,34,34);font-size:12.727272033691406px;font-family:arial,sans-serif"><br>
</div>
<div style="color:rgb(34,34,34);font-size:12.727272033691406px;font-family:arial,sans-serif">sim.
o modelo é para classificação. </div>
<div style="color:rgb(34,34,34);font-size:12.727272033691406px;font-family:arial,sans-serif"><br>
</div>
<div style="color:rgb(34,34,34);font-size:12.727272033691406px;font-family:arial,sans-serif">O
problema é que minhas classes são extremamente
desbalanceadas. </div>
<div style="color:rgb(34,34,34);font-size:12.727272033691406px;font-family:arial,sans-serif"><br>
</div>
<div style="color:rgb(34,34,34);font-size:12.727272033691406px;font-family:arial,sans-serif">Até
onde sei recomenda-se ter classes balanceadas. E esse é
exatamente o que estou trazendo a discussão. </div>
<div style="color:rgb(34,34,34);font-size:12.727272033691406px;font-family:arial,sans-serif"><br>
</div>
<div style="color:rgb(34,34,34);font-size:12.727272033691406px;font-family:arial,sans-serif">Você
discorda disso?</div>
<div style="color:rgb(34,34,34);font-size:12.727272033691406px;font-family:arial,sans-serif"><br>
</div>
<div style="color:rgb(34,34,34);font-size:12.727272033691406px;font-family:arial,sans-serif">Abs.</div>
<div style="color:rgb(34,34,34);font-size:12.727272033691406px;font-family:arial,sans-serif"><br>
</div>
<div style="color:rgb(34,34,34);font-size:12.727272033691406px;font-family:arial,sans-serif">Vinicius
Brito Rocha</div>
<br>
</div>
<div class="gmail_quote">
<div>Em 6 de novembro de 2012 22:58, Fernando
Colugnati <span dir="ltr"><<a href="mailto:fcolugnati@gmail.com" target="_blank">fcolugnati@gmail.com</a>></span>
escreveu:<br>
</div>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Desde
quando vc precisa ter 50% de 1 e 50% de zeros para fazer
uma regressão logística? Não entendi bem seu problema!
Vc fala em treinamento...este modelo será para
classificação?
<div>
<div>
<div>
<br>
</div>
<div class="gmail_extra"><br>
<br>
<div class="gmail_quote">Em 6 de novembro de 2012
23:37, viniciusbritor <span dir="ltr"><<a href="mailto:viniciusbritor@gmail.com" target="_blank">viniciusbritor@gmail.com</a>></span>
escreveu:
<div>
<div>
<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<div>
<div>amostrar com reposição toda a
informação da classe alvo , Y=1 para
que tenha o mesmo tamanho da classe
Y=0. </div>
<div>apenas na amostra de treinamento</div>
<div><br>
</div>
<div><br>
</div>
<div>
<div style="font-size:75%;color:#575757">
Enviado por Samsung Mobile</div>
</div>
<br>
Leonard Mendonça de Assis <<a href="mailto:assis.leonard@gmail.com" target="_blank">assis.leonard@gmail.com</a>>
escreveu:
<div>
<div><br>
<div>Vinícius<br>
<br>
o que você está chamando de
reamostragem?<br>
<pre cols="72">[]s
Leonard de Assis
<a href="http://about.me/ldeassis" target="_blank">http://about.me/ldeassis</a></pre>
Em 06/11/2012 19:14, Vinicius
Brito Rocha escreveu:<br>
</div>
<blockquote type="cite">Pessoal,
<div><br>
</div>
<div>preciso tirar uma dúvida a
respeito de regressão logistica.</div>
<div><br>
</div>
<div>Tenho uma conjunto de dados,
onde existe um grande
desbalanceamento nas classes da
variável resposta (meu evento
Y=1 a ser modelado, possui
poucas observações)</div>
<div><br>
</div>
<div>O que fiz foi:</div>
<div><br>
</div>
<div>separei 70% dos dados para
amostra treino e 30% para teste.</div>
<div><br>
</div>
<div>na amostra treino (70%):</div>
<div><br>
</div>
<div>
<ul>
<li>utilizei uma
re-amostragem, apenas na
classe do evento (Y=1) e fiz
com que as linhas desta
classe fossem re-amostradas
até que a classe com
resposta Y=1 possui-se a
mesma quantidade de linhas
da classe (Y=0)</li>
<li>Com minha base de amostra
treino balanceada ajustei um
modelo de regressão
logistica</li>
</ul>
<div><br>
</div>
<div>na amostra teste(30%):</div>
<div>
<ul>
<li>calculei minhas
probabilidades de
respostas a partir das
variáveis independentes da
amostra teste.</li>
<li>arbitrei um ponto de
classificação de
P_CHAP>= 0,7 para
classificar meu evento
como classe (Y_CHAP=1) e
P_CHAP<0,7 classificar
meu evento como Y_CHAP=0</li>
<li>Construi uma tabela de
confusão comparando os
resultados Y_CHAP e Y para
comparar minha
Sensitividade e
1-Especificidade.</li>
</ul>
<div>Dúvidas:</div>
<div><br>
</div>
<div>A questão é que meus
resultados estão muito
ruins. Acredito que é a
estrutura de dados.</div>
<div>
<ul>
<li>Estou sendo
questionado a respeito
da técnica de
re-amostragem na amostra
treino para equilibrar
as classes. Pois o
demandante acredita que
é necessário algum tipo
de correção do
modelo(feito a
re-amostragem no ajuste
da amostra treino) ao
aplica-lo no conjunto
teste, que não sofreu
nenhuma alteração.</li>
</ul>
<div><br>
</div>
</div>
</div>
<div>Alguém tem algum material
que justifique o uso de
re-amostragem nos dados da
amostra treino?</div>
<div><br>
</div>
<div>Abs.</div>
-- <br>
<i>Vinicius Brito Rocha.</i><br>
<i style="font-weight:bold">Estatístico
e Atuário <font size="1">(IM
/ UFRJ)</font></i><i style="font-weight:bold"><br>
Mestre em Pesquisa Operacional
<font size="1">(COPPE / UFRJ)</font></i><br>
<br>
<a href="http://www.aplicademic.blogspot.com" target="_blank">www.aplicademic.blogspot.com</a><br>
<a href="http://twitter.com/viniciusbritor" target="_blank">http://twitter.com/viniciusbritor</a><br>
<br>
"Não se preocupe muito com as
suas dificuldades em Matemática,
posso assegurar-lhe que as
minhas são ainda maiores." -
Albert Einstein.<br>
<br>
<br>
</div>
<br>
<fieldset></fieldset>
<br>
<pre>_______________________________________________
R-br mailing list
<a href="mailto:R-br@listas.c3sl.ufpr.br" target="_blank">R-br@listas.c3sl.ufpr.br</a>
<a href="https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br" target="_blank">https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br</a>
Leia o guia de postagem (<a href="http://www.leg.ufpr.br/r-br-guia" target="_blank">http://www.leg.ufpr.br/r-br-guia</a>) e forneça código mínimo reproduzível.</pre>
</blockquote>
<br>
</div>
</div>
</div>
<br>
_______________________________________________<br>
R-br mailing list<br>
<a href="mailto:R-br@listas.c3sl.ufpr.br" target="_blank">R-br@listas.c3sl.ufpr.br</a><br>
<a href="https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br" target="_blank">https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br</a><br>
Leia o guia de postagem (<a href="http://www.leg.ufpr.br/r-br-guia" target="_blank">http://www.leg.ufpr.br/r-br-guia</a>)
e forneça código mínimo reproduzível.<br>
</blockquote>
</div>
</div>
</div>
<span><font color="#888888"><br>
<br clear="all">
<div><br>
</div>
-- <br>
Fernando A.B. Colugnati<br>
<br>
<br>
</font></span></div>
</div>
</div>
</blockquote>
</div>
<div>
<div><br>
<br clear="all">
<div><br>
</div>
-- <br>
<i>Vinicius Brito Rocha.</i><br>
<i style="font-weight:bold">Estatístico e Atuário <font size="1">(IM / UFRJ)</font></i><i style="font-weight:bold"><br>
Mestre em Pesquisa Operacional <font size="1">(COPPE
/ UFRJ)</font></i><br>
<br>
<a href="http://www.aplicademic.blogspot.com" target="_blank">www.aplicademic.blogspot.com</a><br>
<a href="http://twitter.com/viniciusbritor" target="_blank">http://twitter.com/viniciusbritor</a><br>
<br>
"Não se preocupe muito com as suas dificuldades em
Matemática, posso assegurar-lhe que as minhas são ainda
maiores." - Albert Einstein.<br>
<br>
<br>
</div>
</div>
</blockquote>
</div>
<br>
<br clear="all">
<div><br>
</div>
-- <br>
Fernando A.B. Colugnati<br>
<br>
<br>
</div>
<br>
<fieldset></fieldset>
<br>
<pre>_______________________________________________
R-br mailing list
<a href="mailto:R-br@listas.c3sl.ufpr.br" target="_blank">R-br@listas.c3sl.ufpr.br</a>
<a href="https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br" target="_blank">https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br</a>
Leia o guia de postagem (<a href="http://www.leg.ufpr.br/r-br-guia" target="_blank">http://www.leg.ufpr.br/r-br-guia</a>) e forneça código mínimo reproduzível.</pre>
</blockquote>
<br>
</div></div></div>
<br>_______________________________________________<br>
R-br mailing list<br>
<a href="mailto:R-br@listas.c3sl.ufpr.br">R-br@listas.c3sl.ufpr.br</a><br>
<a href="https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br" target="_blank">https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br</a><br>
Leia o guia de postagem (<a href="http://www.leg.ufpr.br/r-br-guia" target="_blank">http://www.leg.ufpr.br/r-br-guia</a>) e forneça código mínimo reproduzível.<br></blockquote></div><br><br clear="all"><div><br></div>-- <br>
<i>Vinicius Brito Rocha.</i><br><i style="font-weight:bold">Estatístico e Atuário <font size="1">(IM / UFRJ)</font></i><i style="font-weight:bold"><br>Mestre em Pesquisa Operacional <font size="1">(COPPE / UFRJ)</font></i><br>
<br><a href="http://www.aplicademic.blogspot.com" target="_blank">www.aplicademic.blogspot.com</a><br><a href="http://twitter.com/viniciusbritor" target="_blank">http://twitter.com/viniciusbritor</a><br><br>"Não se preocupe muito com as suas dificuldades em Matemática, posso assegurar-lhe que as minhas são ainda maiores." - Albert Einstein.<br>
<br><br>
</div>