Regressão Logística pode ser influenciada pelo balanceamento de resultados de variável dependente

Tenho um banco de dados com 3074 linhas sem missing. Uma variável dependente binária e mais 42 variáveis independentes também binárias (todas como fator). Minha pergunta é quals VIs contribuem para a doença que está em VD. Meu summary da VD apresenta o seguinte resultado: summary(data.to.work.train$NMM) Sem doença Com doença 2715 359 removi as variáveis com alta correlação (multicolinearidade) e fiz uma RL com todas as variáveis e nada deu signficativo. Fiz tambem com variáveis individuais e nada de significativo. A maioria das variáveis apresenta uma prevalência pequena da doença: Não Sim Não 2683 32 Sim 353 6 Alguém poderia opinar sobre uma possível solução? Ou outros passos a seguir? -- *In Jesu et Maria* *Obrigado* *Prof. Elias Carvalho* *"Felix, qui potuit rerum cognoscere causas" (Virgil 29 BC)"Blessed is he who has been able to understand the cause of things"*

Elias, Como cada VI « apresenta uma prevalência pequena da doença », que eu entendo como "cada VI tem uma contingência cruzada pequena para o caso de doença e exposição" você realmente está com um conjunto de variáveis que não vão conseguir explicar a VD como os testes que foram descritos mostram muito bem. Ademais, se a tab de exemplo for representativa das VI que você tem, ela pelo menos, mostra uma margem de presença da exposição muito pequena também, o que coloca a análise sob dificuldade epistemológica: como uma exposição presente em apenas 1% dos casos poderia explicar uma prevalência da doença de 12% ⁉ Aparentemente seus dados dizem à sua pergunta : "A resposta é nenhuma delas". HTH -- Cesar Rabak On Tue, Apr 21, 2020 at 5:57 PM Elias Carvalho por (R-br) < r-br@listas.c3sl.ufpr.br> wrote:
Tenho um banco de dados com 3074 linhas sem missing.
Uma variável dependente binária e mais 42 variáveis independentes também binárias (todas como fator).
Minha pergunta é quals VIs contribuem para a doença que está em VD.
Meu summary da VD apresenta o seguinte resultado:
summary(data.to.work.train$NMM) Sem doença Com doença 2715 359
removi as variáveis com alta correlação (multicolinearidade) e fiz uma RL com todas as variáveis e nada deu signficativo.
Fiz tambem com variáveis individuais e nada de significativo.
A maioria das variáveis apresenta uma prevalência pequena da doença:
Não Sim Não 2683 32 Sim 353 6
Alguém poderia opinar sobre uma possível solução? Ou outros passos a seguir? --
*In Jesu et Maria* *Obrigado* *Prof. Elias Carvalho*
*"Felix, qui potuit rerum cognoscere causas" (Virgil 29 BC)"Blessed is he who has been able to understand the cause of things"* _______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.

Completando o Cesar: Será que Regressão Logística é o método correto para o que você busca? Você responderá a esta pergunta simplesmente revisitando "o que você quer obter como resposta" lmassis <at> yahoo <dot> com <dot> br assis.leonard <at> gmail <dot> com On Tue, Apr 21, 2020 at 6:42 PM Cesar Rabak por (R-br) < r-br@listas.c3sl.ufpr.br> wrote:
Elias,
Como cada VI « apresenta uma prevalência pequena da doença », que eu entendo como "cada VI tem uma contingência cruzada pequena para o caso de doença e exposição" você realmente está com um conjunto de variáveis que não vão conseguir explicar a VD como os testes que foram descritos mostram muito bem.
Ademais, se a tab de exemplo for representativa das VI que você tem, ela pelo menos, mostra uma margem de presença da exposição muito pequena também, o que coloca a análise sob dificuldade epistemológica: como uma exposição presente em apenas 1% dos casos poderia explicar uma prevalência da doença de 12% ⁉
Aparentemente seus dados dizem à sua pergunta : "A resposta é nenhuma delas".
HTH
-- Cesar Rabak
On Tue, Apr 21, 2020 at 5:57 PM Elias Carvalho por (R-br) < r-br@listas.c3sl.ufpr.br> wrote:
Tenho um banco de dados com 3074 linhas sem missing.
Uma variável dependente binária e mais 42 variáveis independentes também binárias (todas como fator).
Minha pergunta é quals VIs contribuem para a doença que está em VD.
Meu summary da VD apresenta o seguinte resultado:
summary(data.to.work.train$NMM) Sem doença Com doença 2715 359
removi as variáveis com alta correlação (multicolinearidade) e fiz uma RL com todas as variáveis e nada deu signficativo.
Fiz tambem com variáveis individuais e nada de significativo.
A maioria das variáveis apresenta uma prevalência pequena da doença:
Não Sim Não 2683 32 Sim 353 6
Alguém poderia opinar sobre uma possível solução? Ou outros passos a seguir? --
*In Jesu et Maria* *Obrigado* *Prof. Elias Carvalho*
*"Felix, qui potuit rerum cognoscere causas" (Virgil 29 BC)"Blessed is he who has been able to understand the cause of things"* _______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
participantes (3)
-
Cesar Rabak
-
Elias Carvalho
-
Leonard Assis