Leonard,<div><br></div><div>em problemas de classificação, classes muito desbalanceadas comprometem o poder de classificação do classificador. Estou com um problema de valor extremo.</div><div><br></div><div><br></div><div>

Se não me engano em redes neurais isto não é exatamente um problema.</div><div><br></div><div>Lucas,</div><div>A questão é que não estou trabalhando com o R. Estou usando o SAS e o resultado (equação) será implementado em um software. Preciso da equação, por isso não estou usando RN, fora o fato de que o SAS que uso é o Eguide, sem modulo de data mining.</div>

<div><br></div><div>Abs.</div><div><br><div class="gmail_quote">Em 8 de novembro de 2012 21:07, Leonard Mendonça de Assis <span dir="ltr"><<a href="mailto:assis.leonard@gmail.com" target="_blank">assis.leonard@gmail.com</a>></span> escreveu:<br>

<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
  
    
  
  <div text="#000000" bgcolor="#FFFFFF">
    <div>Estou até agora tentando entender
      porque você precisa balancear.<br>
      Já mexi com isso e nunca precisei fazer tal manobra<div class="im"><br>
      <pre cols="72">[]s
Leonard de Assis
<a href="http://about.me/ldeassis" target="_blank">http://about.me/ldeassis</a></pre></div>
      Em 08/11/2012 17:15, Fernando Colugnati escreveu:<br>
    </div><div><div class="h5">
    <blockquote type="cite">Na verdade eu não conheço muito sobre métodos de
      classificação, mas para utilização dos modelos logísticos não há
      qualquer suposição deste tipo...
      <div>Abs</div>
      <div class="gmail_extra"><br>
        <br>
        <div class="gmail_quote">Em 7 de novembro de 2012 00:22,
          Vinicius Brito Rocha <span dir="ltr"><<a href="mailto:viniciusbritor@gmail.com" target="_blank">viniciusbritor@gmail.com</a>></span>
          escreveu:<br>
          <blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
            <div><span style="color:rgb(34,34,34);font-size:12.727272033691406px;font-family:arial,sans-serif">Fernando,</span>
              <div style="color:rgb(34,34,34);font-size:12.727272033691406px;font-family:arial,sans-serif"><br>
              </div>
              <div style="color:rgb(34,34,34);font-size:12.727272033691406px;font-family:arial,sans-serif">sim.
                o modelo é para classificação. </div>
              <div style="color:rgb(34,34,34);font-size:12.727272033691406px;font-family:arial,sans-serif"><br>
              </div>
              <div style="color:rgb(34,34,34);font-size:12.727272033691406px;font-family:arial,sans-serif">O
                problema é que minhas classes são extremamente
                desbalanceadas. </div>
              <div style="color:rgb(34,34,34);font-size:12.727272033691406px;font-family:arial,sans-serif"><br>
              </div>
              <div style="color:rgb(34,34,34);font-size:12.727272033691406px;font-family:arial,sans-serif">Até
                onde sei recomenda-se ter classes balanceadas. E esse é
                exatamente o que estou trazendo a discussão. </div>
              <div style="color:rgb(34,34,34);font-size:12.727272033691406px;font-family:arial,sans-serif"><br>
              </div>
              <div style="color:rgb(34,34,34);font-size:12.727272033691406px;font-family:arial,sans-serif">Você
                discorda disso?</div>
              <div style="color:rgb(34,34,34);font-size:12.727272033691406px;font-family:arial,sans-serif"><br>
              </div>
              <div style="color:rgb(34,34,34);font-size:12.727272033691406px;font-family:arial,sans-serif">Abs.</div>
              <div style="color:rgb(34,34,34);font-size:12.727272033691406px;font-family:arial,sans-serif"><br>
              </div>
              <div style="color:rgb(34,34,34);font-size:12.727272033691406px;font-family:arial,sans-serif">Vinicius
                Brito Rocha</div>
              <br>
            </div>
            <div class="gmail_quote">
              <div>Em 6 de novembro de 2012 22:58, Fernando
                Colugnati <span dir="ltr"><<a href="mailto:fcolugnati@gmail.com" target="_blank">fcolugnati@gmail.com</a>></span>
                escreveu:<br>
              </div>
              <blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Desde
                quando vc precisa ter 50% de 1 e 50% de zeros para fazer
                uma regressão logística? Não entendi bem seu problema!
                Vc fala em treinamento...este modelo será para
                classificação?
                <div>
                  <div>
                    <div>
                      <br>
                    </div>
                    <div class="gmail_extra"><br>
                      <br>
                      <div class="gmail_quote">Em 6 de novembro de 2012
                        23:37, viniciusbritor <span dir="ltr"><<a href="mailto:viniciusbritor@gmail.com" target="_blank">viniciusbritor@gmail.com</a>></span>
                        escreveu:
                        <div>
                          <div>
                            <br>
                            <blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
                              <div>
                                <div>amostrar com reposição toda a
                                  informação da classe alvo  , Y=1 para
                                  que tenha o mesmo tamanho da classe
                                  Y=0. </div>
                                <div>apenas na amostra de treinamento</div>
                                <div><br>
                                </div>
                                <div><br>
                                </div>
                                <div>
                                  <div style="font-size:75%;color:#575757">
                                    Enviado por Samsung Mobile</div>
                                </div>
                                <br>
                                Leonard Mendonça de Assis <<a href="mailto:assis.leonard@gmail.com" target="_blank">assis.leonard@gmail.com</a>>
                                escreveu:
                                <div>
                                  <div><br>
                                    <div>Vinícius<br>
                                      <br>
                                      o que você está chamando de
                                      reamostragem?<br>
                                      <pre cols="72">[]s
Leonard de Assis
<a href="http://about.me/ldeassis" target="_blank">http://about.me/ldeassis</a></pre>
                                      Em 06/11/2012 19:14, Vinicius
                                      Brito Rocha escreveu:<br>
                                    </div>
                                    <blockquote type="cite">Pessoal,
                                      <div><br>
                                      </div>
                                      <div>preciso tirar uma dúvida a
                                        respeito de regressão logistica.</div>
                                      <div><br>
                                      </div>
                                      <div>Tenho uma conjunto de dados,
                                        onde existe um grande
                                        desbalanceamento nas classes da
                                        variável resposta (meu evento
                                        Y=1 a ser modelado, possui
                                        poucas observações)</div>
                                      <div><br>
                                      </div>
                                      <div>O que fiz foi:</div>
                                      <div><br>
                                      </div>
                                      <div>separei 70% dos dados para
                                        amostra treino e 30% para teste.</div>
                                      <div><br>
                                      </div>
                                      <div>na amostra treino (70%):</div>
                                      <div><br>
                                      </div>
                                      <div>
                                        <ul>
                                          <li>utilizei uma
                                            re-amostragem, apenas na
                                            classe do evento (Y=1) e fiz
                                            com que as linhas desta
                                             classe fossem re-amostradas
                                            até que a classe com
                                            resposta Y=1 possui-se a
                                            mesma quantidade de linhas
                                            da classe (Y=0)</li>
                                          <li>Com minha base de amostra
                                            treino balanceada ajustei um
                                            modelo de regressão
                                            logistica</li>
                                        </ul>
                                        <div><br>
                                        </div>
                                        <div>na amostra teste(30%):</div>
                                        <div>
                                          <ul>
                                            <li>calculei minhas
                                              probabilidades de
                                              respostas a partir das
                                              variáveis independentes da
                                              amostra teste.</li>
                                            <li>arbitrei um ponto de
                                              classificação de
                                              P_CHAP>= 0,7 para
                                              classificar meu evento
                                              como classe (Y_CHAP=1) e
                                               P_CHAP<0,7 classificar
                                              meu evento como Y_CHAP=0</li>
                                            <li>Construi uma tabela de
                                              confusão comparando os
                                              resultados Y_CHAP e Y para
                                              comparar minha
                                              Sensitividade e
                                              1-Especificidade.</li>
                                          </ul>
                                          <div>Dúvidas:</div>
                                          <div><br>
                                          </div>
                                          <div>A questão é que meus
                                            resultados estão muito
                                            ruins. Acredito que é a
                                            estrutura de dados.</div>
                                          <div>
                                            <ul>
                                              <li>Estou sendo
                                                questionado a respeito
                                                da técnica de
                                                re-amostragem na amostra
                                                treino para equilibrar
                                                as classes. Pois o
                                                demandante acredita que
                                                é necessário algum tipo
                                                de correção do
                                                modelo(feito a
                                                re-amostragem no ajuste
                                                da amostra treino) ao
                                                aplica-lo no  conjunto
                                                teste, que não sofreu
                                                nenhuma alteração.</li>
                                            </ul>
                                            <div><br>
                                            </div>
                                          </div>
                                        </div>
                                        <div>Alguém tem algum material
                                          que justifique o uso de
                                          re-amostragem nos dados da
                                          amostra treino?</div>
                                        <div><br>
                                        </div>
                                        <div>Abs.</div>
                                        -- <br>
                                        <i>Vinicius Brito Rocha.</i><br>
                                        <i style="font-weight:bold">Estatístico
                                          e Atuário <font size="1">(IM
                                            / UFRJ)</font></i><i style="font-weight:bold"><br>
                                          Mestre em Pesquisa Operacional
                                          <font size="1">(COPPE / UFRJ)</font></i><br>
                                        <br>
                                        <a href="http://www.aplicademic.blogspot.com" target="_blank">www.aplicademic.blogspot.com</a><br>
                                        <a href="http://twitter.com/viniciusbritor" target="_blank">http://twitter.com/viniciusbritor</a><br>
                                        <br>
                                        "Não se preocupe muito com as
                                        suas dificuldades em Matemática,
                                        posso assegurar-lhe que as
                                        minhas são ainda maiores." -
                                        Albert Einstein.<br>
                                        <br>
                                        <br>
                                      </div>
                                      <br>
                                      <fieldset></fieldset>
                                      <br>
                                      <pre>_______________________________________________
R-br mailing list
<a href="mailto:R-br@listas.c3sl.ufpr.br" target="_blank">R-br@listas.c3sl.ufpr.br</a>
<a href="https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br" target="_blank">https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br</a>
Leia o guia de postagem (<a href="http://www.leg.ufpr.br/r-br-guia" target="_blank">http://www.leg.ufpr.br/r-br-guia</a>) e forneça código mínimo reproduzível.</pre>
                                    </blockquote>
                                    <br>
                                  </div>
                                </div>
                              </div>
                              <br>
_______________________________________________<br>
                              R-br mailing list<br>
                              <a href="mailto:R-br@listas.c3sl.ufpr.br" target="_blank">R-br@listas.c3sl.ufpr.br</a><br>
                              <a href="https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br" target="_blank">https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br</a><br>
                              Leia o guia de postagem (<a href="http://www.leg.ufpr.br/r-br-guia" target="_blank">http://www.leg.ufpr.br/r-br-guia</a>)
                              e forneça código mínimo reproduzível.<br>
                            </blockquote>
                          </div>
                        </div>
                      </div>
                      <span><font color="#888888"><br>
                          <br clear="all">
                          <div><br>
                          </div>
                          -- <br>
                          Fernando A.B. Colugnati<br>
                          <br>
                          <br>
                        </font></span></div>
                  </div>
                </div>
              </blockquote>
            </div>
            <div>
              <div><br>
                <br clear="all">
                <div><br>
                </div>
                -- <br>
                <i>Vinicius Brito Rocha.</i><br>
                <i style="font-weight:bold">Estatístico e Atuário <font size="1">(IM / UFRJ)</font></i><i style="font-weight:bold"><br>
                  Mestre em Pesquisa Operacional <font size="1">(COPPE
                    / UFRJ)</font></i><br>
                <br>
                <a href="http://www.aplicademic.blogspot.com" target="_blank">www.aplicademic.blogspot.com</a><br>
                <a href="http://twitter.com/viniciusbritor" target="_blank">http://twitter.com/viniciusbritor</a><br>
                <br>
                "Não se preocupe muito com as suas dificuldades em
                Matemática, posso assegurar-lhe que as minhas são ainda
                maiores." - Albert Einstein.<br>
                <br>
                <br>
              </div>
            </div>
          </blockquote>
        </div>
        <br>
        <br clear="all">
        <div><br>
        </div>
        -- <br>
        Fernando A.B. Colugnati<br>
        <br>
        <br>
      </div>
      <br>
      <fieldset></fieldset>
      <br>
      <pre>_______________________________________________
R-br mailing list
<a href="mailto:R-br@listas.c3sl.ufpr.br" target="_blank">R-br@listas.c3sl.ufpr.br</a>
<a href="https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br" target="_blank">https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br</a>
Leia o guia de postagem (<a href="http://www.leg.ufpr.br/r-br-guia" target="_blank">http://www.leg.ufpr.br/r-br-guia</a>) e forneça código mínimo reproduzível.</pre>
    </blockquote>
    <br>
  </div></div></div>

<br>_______________________________________________<br>
R-br mailing list<br>
<a href="mailto:R-br@listas.c3sl.ufpr.br">R-br@listas.c3sl.ufpr.br</a><br>
<a href="https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br" target="_blank">https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br</a><br>
Leia o guia de postagem (<a href="http://www.leg.ufpr.br/r-br-guia" target="_blank">http://www.leg.ufpr.br/r-br-guia</a>) e forneça código mínimo reproduzível.<br></blockquote></div><br><br clear="all"><div><br></div>-- <br>

<i>Vinicius Brito Rocha.</i><br><i style="font-weight:bold">Estatístico e Atuário <font size="1">(IM / UFRJ)</font></i><i style="font-weight:bold"><br>Mestre em Pesquisa Operacional <font size="1">(COPPE / UFRJ)</font></i><br>

<br><a href="http://www.aplicademic.blogspot.com" target="_blank">www.aplicademic.blogspot.com</a><br><a href="http://twitter.com/viniciusbritor" target="_blank">http://twitter.com/viniciusbritor</a><br><br>"Não se preocupe muito com as suas dificuldades em Matemática, posso assegurar-lhe que as minhas são ainda maiores." - Albert Einstein.<br>

<br><br>
</div>