Em problemas de classificação, eu prefiro ter classes desbalanceadas e do que duplicar dados e <span style="font-family:arial,sans-serif;font-size:12.727272033691406px">obter estimativas não con</span><span style="font-family:arial,sans-serif;font-size:12.727272033691406px">fiáveis.</span><div>
<span style="font-family:arial,sans-serif;font-size:12.727272033691406px"><br></span></div><div><span style="font-family:arial,sans-serif;font-size:12.727272033691406px">Se </span><span style="font-family:arial,sans-serif;font-size:12.727272033691406px">for extremamente desbalancedo (Y=1 em menos de 1% dos casos, p. ex.) você pode tentar usar um algoritmo de <i>anomaly detection</i> (machine learning). Aí você usa todos os casos Y=1 na validação cruzada. Mas sua amostra é grande o suficiente?</span></div>
<div><div><br></div></div><div class="gmail_extra"><br><br><div class="gmail_quote">Em 8 de novembro de 2012 17:15, Fernando Colugnati <span dir="ltr"><<a href="mailto:fcolugnati@gmail.com" target="_blank">fcolugnati@gmail.com</a>></span> escreveu:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Na verdade eu não conheço muito sobre métodos de classificação, mas para utilização dos modelos logísticos não há qualquer suposição deste tipo...<div>
Abs</div><div class="gmail_extra"><br><br><div class="gmail_quote">Em 7 de novembro de 2012 00:22, Vinicius Brito Rocha <span dir="ltr"><<a href="mailto:viniciusbritor@gmail.com" target="_blank">viniciusbritor@gmail.com</a>></span> escreveu:<div>
<div class="h5"><br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div><span style="color:rgb(34,34,34);font-size:12.727272033691406px;font-family:arial,sans-serif">Fernando,</span><div style="color:rgb(34,34,34);font-size:12.727272033691406px;font-family:arial,sans-serif">



<br></div><div style="color:rgb(34,34,34);font-size:12.727272033691406px;font-family:arial,sans-serif">sim. o modelo é para classificação. </div><div style="color:rgb(34,34,34);font-size:12.727272033691406px;font-family:arial,sans-serif">



<br></div><div style="color:rgb(34,34,34);font-size:12.727272033691406px;font-family:arial,sans-serif">O problema é que minhas classes são extremamente desbalanceadas. </div><div style="color:rgb(34,34,34);font-size:12.727272033691406px;font-family:arial,sans-serif">



<br></div><div style="color:rgb(34,34,34);font-size:12.727272033691406px;font-family:arial,sans-serif">Até onde sei recomenda-se ter classes balanceadas. E esse é exatamente o que estou trazendo a discussão. </div>

<div style="color:rgb(34,34,34);font-size:12.727272033691406px;font-family:arial,sans-serif"><br></div><div style="color:rgb(34,34,34);font-size:12.727272033691406px;font-family:arial,sans-serif">

Você discorda disso?</div><div style="color:rgb(34,34,34);font-size:12.727272033691406px;font-family:arial,sans-serif"><br></div><div style="color:rgb(34,34,34);font-size:12.727272033691406px;font-family:arial,sans-serif">



Abs.</div><div style="color:rgb(34,34,34);font-size:12.727272033691406px;font-family:arial,sans-serif"><br></div><div style="color:rgb(34,34,34);font-size:12.727272033691406px;font-family:arial,sans-serif">

Vinicius Brito Rocha</div><br></div><div class="gmail_quote"><div>Em 6 de novembro de 2012 22:58, Fernando Colugnati <span dir="ltr"><<a href="mailto:fcolugnati@gmail.com" target="_blank">fcolugnati@gmail.com</a>></span> escreveu:<br>



</div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Desde quando vc precisa ter 50% de 1 e 50% de zeros para fazer uma regressão logística? Não entendi bem seu problema! Vc fala em treinamento...este modelo será para classificação?<div>

<div><div>

<br></div><div class="gmail_extra"><br>
<br><div class="gmail_quote">Em 6 de novembro de 2012 23:37, viniciusbritor <span dir="ltr"><<a href="mailto:viniciusbritor@gmail.com" target="_blank">viniciusbritor@gmail.com</a>></span> escreveu:<div><div>

<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<div><div>amostrar com reposição toda a informação da classe alvo  , Y=1 para que tenha o mesmo tamanho da classe Y=0. </div><div>apenas na amostra de treinamento</div><div><br></div><div><br></div><div><div style="font-size:75%;color:#575757">




Enviado por Samsung Mobile</div></div> <br>Leonard Mendonça de Assis <<a href="mailto:assis.leonard@gmail.com" target="_blank">assis.leonard@gmail.com</a>> escreveu:<div><div><br>
    <div>Vinícius<br>
      <br>
      o que você está chamando de reamostragem?<br>
      <pre cols="72">[]s
Leonard de Assis
<a href="http://about.me/ldeassis" target="_blank">http://about.me/ldeassis</a></pre>
      Em 06/11/2012 19:14, Vinicius Brito Rocha escreveu:<br>
    </div>
    <blockquote type="cite">Pessoal,
      <div><br>
      </div>
      <div>preciso tirar uma dúvida a respeito de regressão logistica.</div>
      <div><br>
      </div>
      <div>Tenho uma conjunto de dados, onde existe um grande
        desbalanceamento nas classes da variável resposta (meu evento
        Y=1 a ser modelado, possui poucas observações)</div>
      <div><br>
      </div>
      <div>O que fiz foi:</div>
      <div><br>
      </div>
      <div>separei 70% dos dados para amostra treino e 30% para teste.</div>
      <div><br>
      </div>
      <div>na amostra treino (70%):</div>
      <div><br>
      </div>
      <div>
        <ul>
          <li>utilizei uma re-amostragem, apenas na classe do evento
            (Y=1) e fiz com que as linhas desta  classe fossem
            re-amostradas até que a classe com resposta Y=1 possui-se a
            mesma quantidade de linhas da classe (Y=0)</li>
          <li>Com minha base de amostra treino balanceada ajustei um
            modelo de regressão logistica</li>
        </ul>
        <div><br>
        </div>
        <div>na amostra teste(30%):</div>
        <div>
          <ul>
            <li>calculei minhas probabilidades de respostas a partir das
              variáveis independentes da amostra teste.</li>
            <li>arbitrei um ponto de classificação de P_CHAP>= 0,7
              para classificar meu evento como classe (Y_CHAP=1) e
               P_CHAP<0,7 classificar meu evento como Y_CHAP=0</li>
            <li>Construi uma tabela de confusão comparando os resultados
              Y_CHAP e Y para comparar minha Sensitividade e
              1-Especificidade.</li>
          </ul>
          <div>Dúvidas:</div>
          <div><br>
          </div>
          <div>A questão é que meus resultados estão muito ruins.
            Acredito que é a estrutura de dados.</div>
          <div>
            <ul>
              <li>Estou sendo questionado a respeito da técnica de
                re-amostragem na amostra treino para equilibrar as
                classes. Pois o demandante acredita que é necessário
                algum tipo de correção do modelo(feito a re-amostragem
                no ajuste da amostra treino) ao aplica-lo no  conjunto
                teste, que não sofreu nenhuma alteração.</li>
            </ul>
            <div><br>
            </div>
          </div>
        </div>
        <div>Alguém tem algum material que justifique o uso de
          re-amostragem nos dados da amostra treino?</div>
        <div><br>
        </div>
        <div>Abs.</div>
        -- <br>
        <i>Vinicius Brito Rocha.</i><br>
        <i style="font-weight:bold">Estatístico e Atuário <font size="1">(IM / UFRJ)</font></i><i style="font-weight:bold"><br>
          Mestre em Pesquisa Operacional <font size="1">(COPPE / UFRJ)</font></i><br>
        <br>
        <a href="http://www.aplicademic.blogspot.com" target="_blank">www.aplicademic.blogspot.com</a><br>
        <a href="http://twitter.com/viniciusbritor" target="_blank">http://twitter.com/viniciusbritor</a><br>
        <br>
        "Não se preocupe muito com as suas dificuldades em Matemática,
        posso assegurar-lhe que as minhas são ainda maiores." - Albert
        Einstein.<br>
        <br>
        <br>
      </div>
      <br>
      <fieldset></fieldset>
      <br>
      <pre>_______________________________________________
R-br mailing list
<a href="mailto:R-br@listas.c3sl.ufpr.br" target="_blank">R-br@listas.c3sl.ufpr.br</a>
<a href="https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br" target="_blank">https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br</a>
Leia o guia de postagem (<a href="http://www.leg.ufpr.br/r-br-guia" target="_blank">http://www.leg.ufpr.br/r-br-guia</a>) e forneça código mínimo reproduzível.</pre>
    </blockquote>
    <br>
  

</div></div></div><br>_______________________________________________<br>
R-br mailing list<br>
<a href="mailto:R-br@listas.c3sl.ufpr.br" target="_blank">R-br@listas.c3sl.ufpr.br</a><br>
<a href="https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br" target="_blank">https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br</a><br>
Leia o guia de postagem (<a href="http://www.leg.ufpr.br/r-br-guia" target="_blank">http://www.leg.ufpr.br/r-br-guia</a>) e forneça código mínimo reproduzível.<br></blockquote></div></div></div><span><font color="#888888"><br>



<br clear="all"><div><br></div>-- <br>
Fernando A.B. Colugnati<br><br><br>
</font></span></div>
</div></div></blockquote></div><div><div><br><br clear="all"><div><br></div>-- <br><i>Vinicius Brito Rocha.</i><br><i style="font-weight:bold">Estatístico e Atuário <font size="1">(IM / UFRJ)</font></i><i style="font-weight:bold"><br>

Mestre em Pesquisa Operacional <font size="1">(COPPE / UFRJ)</font></i><br>

<br><a href="http://www.aplicademic.blogspot.com" target="_blank">www.aplicademic.blogspot.com</a><br><a href="http://twitter.com/viniciusbritor" target="_blank">http://twitter.com/viniciusbritor</a><br><br>"Não se preocupe muito com as suas dificuldades em Matemática, posso assegurar-lhe que as minhas são ainda maiores." - Albert Einstein.<br>



<br><br>
</div></div></blockquote></div></div></div><span class="HOEnZb"><font color="#888888"><br><br clear="all"><div><br></div>-- <br>Fernando A.B. Colugnati<br><br><br>
</font></span></div>
<br>_______________________________________________<br>
R-br mailing list<br>
<a href="mailto:R-br@listas.c3sl.ufpr.br">R-br@listas.c3sl.ufpr.br</a><br>
<a href="https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br" target="_blank">https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br</a><br>
Leia o guia de postagem (<a href="http://www.leg.ufpr.br/r-br-guia" target="_blank">http://www.leg.ufpr.br/r-br-guia</a>) e forneça código mínimo reproduzível.<br></blockquote></div><br></div>