[R-br] RES: Fwd: Distribuição para regressão de resposta binária

Vinicius Brito Rocha viniciusbritor em gmail.com
Quinta Maio 11 17:29:16 BRT 2017


Marcos,

Se me permite uma sugestão:

Quando vc diz:

"Tenho uma variável resposta binária. Como a frequência da resposta é alta
(38,11%), teóricos da Estatística aplicada à Epidemiologia sugerem que não
seja usada uma regressão logística"

Este problema é facilmente resolvido um processo de reamostragem para
balancear as classes. vc pode então usar o um regressão logistica, ou
qualquer outro método de classificação supervionada para resolver seu
problema.

E como foi falado, usar uma matriz de confusão para checar sua taxa de
acerto.


Abs

Vinicius


Em 9 de fevereiro de 2017 10:18, Leonard Mendonça de Assis via R-br <
r-br em listas.c3sl.ufpr.br> escreveu:

> Marcos,
>
>
>
> Não vou discutir escolhas de Factor e etc pois não é o assunto. Sugiro que
> revise o assunto.
>
>
>
>
>
> O erro no primeiro ajuste(binomial(link=log)  é que o modelo não está
> conseguindo convergir.
>
> O modelo Poisson, (Poisson, quase Poisson, binomial negativo, etc) não faz
> sentido em seus dados, vide o que expliquei nos e-mails anteriores.
>
>
>
> O que você pode fazer?
>
>
>
> Você tem dúzias de artigos comentando que o melhor seria
> binomial(link=log), mas você tem problemas de convergência neste caso. Como
> você já tem uma estimativa dos parâmetros com link logit, utilize estes
> coeficientes como chute inicial do modelo.
>
>
>
> Não gosto destes testes gráficos de ajuste, prefiro olhar
> cross-validation, roc curve ou algo assim.
>
>
>
> Leonard
>
>
>
> *De:* R-br [mailto:r-br-bounces em listas.c3sl.ufpr.br] *Em nome de *Marcos
> Bissoli via R-br
> *Enviada em:* quinta-feira, 9 de fevereiro de 2017 10:35
> *Para:* a lista Brasileira oficial de discussão do programa R. <
> r-br em listas.c3sl.ufpr.br>
> *Assunto:* [R-br] Fwd: Distribuição para regressão de resposta binária
>
>
>
>
>
> ---------- Mensagem encaminhada ----------
> De: *Marcos Bissoli* <mbissoli em gmail.com>
> Data: 9 de fevereiro de 2017 09:38
> Assunto: Re: [R-br] Distribuição para regressão de resposta binária
> Para: Leonard Mendonça de Assis <assis.leonard em gmail.com>
>
> Bom dia,
>
>
>
> Mais uma vez, muito obrigado pela oportunidade de diálogo.
>
>
>
> Seguem códigos aplicados ao meu banco de dados. Modelei com diversas
> técnicas. Perceba que os gráficos de diagnóstico não diferem muito entre
> si, nestas que estou testando. E a dúvida, talvez, central, seja essa:
> esses gráficos são, de fato, tão relevantes? Pois, como eu disse, alguns
> testes de ajuste que fiz deram resultados satisfatórios. Até que ponto esse
> diagnóstico visual de ajuste é um problema? Percebam, também, que não há
> grandes diferenças inclusive com o gráfico da regressão logística. Meu
> problema com a logística, repito, é que ela me retorna odds ratios, e essa
> medida não tem sido bem aceita entre epidemiologistas. Por isso eu prefiro
> famílias com função de ligação "log", pois assim eu consigo facilmente as
> razões de prevalência.
>
>
>
> Percebam, ainda, que a log binomial retorna erro e não gera um objeto. Há
> algum ajuste a mais que eu possa fazer no código para ela funcionar? Na
> literatura que consultei, quando isso ocorre, a sugestão é que se use a
> Poisson com variância robusta. Percebam, também, que os coeficientes
> significantes não mudam de modelo para modelo, à exceção da Quasi-Poisson
> que é mais "sensível" (estou usando um termo epidemiológico aqui) para
> detectar fatores potencialmente causais.
>
>
>
> Tabagismo é a variável binária de resposta: 1 para fumantes, 0 para não
> fumantes. As demais marcadas com "factor" são também binárias. As sem
> "factor" são contínuas ou discretas.
>
>
>
> > TabModelagem <- data.frame(Tabagismo,factor(SexoDic),factor(Branca),factor(Negra),factor(Parda),
>
> +                             factor(Amarela),factor(SemReligiao),factor(Catolica),
>
> +                             factor(Espirita),factor(Evangelica),factor(AfroBrasileira),
>
> +                             factor(Turno),factor(Aposentado),factor(OcupaEstDiApenasDesemp),
>
> +                             factor(ComFamilia),factor(ComOutParentes),factor(Republica),
>
> +                             factor(Sozinho),factor(Pensao),factor(OutroMoradia),factor(RU),
>
> +                             factor(praec4),IdadeA,escola,RendaPC,Dist,PraecSoma)
>
> > ModeloLogBinomial <- glm(Tabagismo~.,data = TabModelagem,family = binomial(link = log))
>
> Erro: nenhum jogo válido de coeficientes tem sido encontrado: por favor, fornece valores iniciais
>
> > ModeloLogistico <- glm(Tabagismo~.,data = TabModelagem,family = binomial(link = logit))
>
> > summary(ModeloLogistico)
>
>
>
> Call:
>
> glm(formula = Tabagismo ~ ., family = binomial(link = logit),
>
>     data = TabModelagem)
>
>
>
> Deviance Residuals:
>
>     Min       1Q   Median       3Q      Max
>
> -2.0034  -0.8824  -0.5459   1.0052   2.3721
>
>
>
> Coefficients:
>
>                                   Estimate Std. Error z value Pr(>|z|)
>
> (Intercept)                      1.215e+01  8.827e+02   0.014 0.989021
>
> factor.SexoDic.1                 1.042e+00  1.430e-01   7.281 3.31e-13 ***
>
> factor.Branca.1                 -1.481e+01  8.827e+02  -0.017 0.986618
>
> factor.Negra.1                  -1.474e+01  8.827e+02  -0.017 0.986677
>
> factor.Parda.1                  -1.487e+01  8.827e+02  -0.017 0.986563
>
> factor.Amarela.1                -1.545e+01  8.827e+02  -0.018 0.986037
>
> factor.SemReligiao.1            -1.956e-01  4.151e-01  -0.471 0.637543
>
> factor.Catolica.1               -1.009e+00  4.026e-01  -2.506 0.012225 *
>
> factor.Espirita.1               -3.190e-01  4.624e-01  -0.690 0.490209
>
> factor.Evangelica.1             -1.759e+00  4.694e-01  -3.747 0.000179 ***
>
> factor.AfroBrasileira.1          1.438e+01  4.219e+02   0.034 0.972808
>
> factor.Turno.1                   3.093e-02  1.920e-01   0.161 0.872056
>
> factor.Aposentado.1             -9.971e-02  1.901e-01  -0.524 0.600027
>
> factor.OcupaEstDiApenasDesemp.1  1.799e-01  2.670e-01   0.674 0.500536
>
> factor.ComFamilia.1             -6.624e-01  4.098e-01  -1.616 0.106055
>
> factor.ComOutParentes.1         -7.401e-01  5.805e-01  -1.275 0.202332
>
> factor.Republica.1               6.300e-02  3.837e-01   0.164 0.869588
>
> factor.Sozinho.1                -5.343e-01  4.299e-01  -1.243 0.213914
>
> factor.Pensao.1                 -1.324e+00  6.812e-01  -1.944 0.051938 .
>
> factor.OutroMoradia.1           -9.557e-01  5.861e-01  -1.631 0.102934
>
> factor.RU.1                     -3.592e-01  1.911e-01  -1.880 0.060152 .
>
> factor.praec4.1                 -2.845e-01  4.985e-01  -0.571 0.568191
>
> IdadeA                           7.917e-02  2.043e-02   3.875 0.000107 ***
>
> escola                           1.200e-01  6.289e-02   1.909 0.056297 .
>
> RendaPC                          1.699e-04  4.093e-05   4.151 3.31e-05 ***
>
> Dist                             1.634e-04  2.525e-04   0.647 0.517573
>
> PraecSoma                        5.281e-02  5.452e-02   0.969 0.332692
>
> ---
>
> Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
>
>
>
> (Dispersion parameter for binomial family taken to be 1)
>
>
>
>     Null deviance: 1516.6  on 1135  degrees of freedom
>
> Residual deviance: 1279.3  on 1109  degrees of freedom
>
>   (587 observations deleted due to missingness)
>
> AIC: 1333.3
>
>
>
> Number of Fisher Scoring iterations: 13
>
>
>
> > ModeloPoisson <- glm(Tabagismo~.,data = TabModelagem,family = poisson(link = log))
>
> > summary(ModeloPoisson)
>
>
>
> Call:
>
> glm(formula = Tabagismo ~ ., family = poisson(link = log), data = TabModelagem)
>
>
>
> Deviance Residuals:
>
>     Min       1Q   Median       3Q      Max
>
> -1.4867  -0.7821  -0.5889   0.5349   1.6624
>
>
>
> Coefficients:
>
>                                   Estimate Std. Error z value Pr(>|z|)
>
> (Intercept)                     -1.245e+00  1.125e+00  -1.107  0.26845
>
> factor.SexoDic.1                 5.800e-01  1.065e-01   5.447 5.11e-08 ***
>
> factor.Branca.1                 -8.332e-01  1.009e+00  -0.826  0.40870
>
> factor.Negra.1                  -8.210e-01  1.028e+00  -0.799  0.42446
>
> factor.Parda.1                  -9.009e-01  1.012e+00  -0.890  0.37337
>
> factor.Amarela.1                -1.089e+00  1.092e+00  -0.998  0.31852
>
> factor.SemReligiao.1            -9.670e-02  2.430e-01  -0.398  0.69062
>
> factor.Catolica.1               -4.813e-01  2.396e-01  -2.009  0.04459 *
>
> factor.Espirita.1               -1.235e-01  2.806e-01  -0.440  0.65987
>
> factor.Evangelica.1             -9.177e-01  3.126e-01  -2.936  0.00332 **
>
> factor.AfroBrasileira.1          6.068e-01  5.538e-01   1.096  0.27325
>
> factor.Turno.1                   1.534e-03  1.331e-01   0.012  0.99081
>
> factor.Aposentado.1             -4.516e-02  1.357e-01  -0.333  0.73937
>
> factor.OcupaEstDiApenasDesemp.1  7.249e-02  1.816e-01   0.399  0.68972
>
> factor.ComFamilia.1             -4.323e-01  2.739e-01  -1.578  0.11447
>
> factor.ComOutParentes.1         -5.029e-01  4.527e-01  -1.111  0.26655
>
> factor.Republica.1               8.985e-03  2.522e-01   0.036  0.97157
>
> factor.Sozinho.1                -2.475e-01  2.878e-01  -0.860  0.38987
>
> factor.Pensao.1                 -8.439e-01  5.148e-01  -1.639  0.10117
>
> factor.OutroMoradia.1           -5.262e-01  4.316e-01  -1.219  0.22275
>
> factor.RU.1                     -1.937e-01  1.363e-01  -1.421  0.15517
>
> factor.praec4.1                 -1.583e-01  3.432e-01  -0.461  0.64469
>
> IdadeA                           3.787e-02  1.207e-02   3.136  0.00171 **
>
> escola                           8.576e-02  4.429e-02   1.936  0.05281 .
>
> RendaPC                          4.045e-05  1.690e-05   2.393  0.01670 *
>
> Dist                             2.605e-05  1.668e-04   0.156  0.87586
>
> PraecSoma                        2.419e-02  3.972e-02   0.609  0.54262
>
> ---
>
> Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
>
>
>
> (Dispersion parameter for poisson family taken to be 1)
>
>
>
>     Null deviance: 834.67  on 1135  degrees of freedom
>
> Residual deviance: 706.16  on 1109  degrees of freedom
>
>   (587 observations deleted due to missingness)
>
> AIC: 1640.2
>
>
>
> Number of Fisher Scoring iterations: 5
>
>
>
> > ModeloQuasiPoisson <- glm(Tabagismo~.,data = TabModelagem,family = quasipoisson(link = log))
>
> > summary(ModeloQuasiPoisson)
>
>
>
> Call:
>
> glm(formula = Tabagismo ~ ., family = quasipoisson(link = log),
>
>     data = TabModelagem)
>
>
>
> Deviance Residuals:
>
>     Min       1Q   Median       3Q      Max
>
> -1.4867  -0.7821  -0.5889   0.5349   1.6624
>
>
>
> Coefficients:
>
>                                   Estimate Std. Error t value Pr(>|t|)
>
> (Intercept)                     -1.245e+00  8.738e-01  -1.424 0.154644
>
> factor.SexoDic.1                 5.800e-01  8.273e-02   7.011 4.11e-12 ***
>
> factor.Branca.1                 -8.332e-01  7.836e-01  -1.063 0.287863
>
> factor.Negra.1                  -8.210e-01  7.987e-01  -1.028 0.304185
>
> factor.Parda.1                  -9.009e-01  7.863e-01  -1.146 0.252163
>
> factor.Amarela.1                -1.089e+00  8.481e-01  -1.284 0.199466
>
> factor.SemReligiao.1            -9.670e-02  1.888e-01  -0.512 0.608566
>
> factor.Catolica.1               -4.813e-01  1.862e-01  -2.585 0.009863 **
>
> factor.Espirita.1               -1.235e-01  2.181e-01  -0.566 0.571230
>
> factor.Evangelica.1             -9.177e-01  2.429e-01  -3.779 0.000166 ***
>
> factor.AfroBrasileira.1          6.068e-01  4.303e-01   1.410 0.158794
>
> factor.Turno.1                   1.534e-03  1.034e-01   0.015 0.988169
>
> factor.Aposentado.1             -4.516e-02  1.055e-01  -0.428 0.668597
>
> factor.OcupaEstDiApenasDesemp.1  7.249e-02  1.411e-01   0.514 0.607474
>
> factor.ComFamilia.1             -4.323e-01  2.128e-01  -2.031 0.042444 *
>
> factor.ComOutParentes.1         -5.029e-01  3.517e-01  -1.430 0.153011
>
> factor.Republica.1               8.985e-03  1.959e-01   0.046 0.963429
>
> factor.Sozinho.1                -2.475e-01  2.236e-01  -1.107 0.268673
>
> factor.Pensao.1                 -8.439e-01  4.000e-01  -2.110 0.035106 *
>
> factor.OutroMoradia.1           -5.262e-01  3.353e-01  -1.569 0.116880
>
> factor.RU.1                     -1.937e-01  1.059e-01  -1.830 0.067589 .
>
> factor.praec4.1                 -1.583e-01  2.666e-01  -0.594 0.552951
>
> IdadeA                           3.787e-02  9.381e-03   4.037 5.79e-05 ***
>
> escola                           8.576e-02  3.441e-02   2.492 0.012836 *
>
> RendaPC                          4.045e-05  1.313e-05   3.080 0.002119 **
>
> Dist                             2.605e-05  1.296e-04   0.201 0.840689
>
> PraecSoma                        2.419e-02  3.086e-02   0.784 0.433427
>
> ---
>
> Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
>
>
>
> (Dispersion parameter for quasipoisson family taken to be 0.6036898)
>
>
>
>     Null deviance: 834.67  on 1135  degrees of freedom
>
> Residual deviance: 706.16  on 1109  degrees of freedom
>
>   (587 observations deleted due to missingness)
>
> AIC: NA
>
>
>
> Number of Fisher Scoring iterations: 5
>
>
>
> > library(MASS)
>
> > ModeloBinomialNegativa <- glm.nb(Tabagismo~.,data = TabModelagem,link = log)
>
> Warning messages:
>
> 1: In theta.ml(Y, mu, sum(w), w, limit = control$maxit, trace = control$trace >  :
>
>   iteration limit reached
>
> 2: In theta.ml(Y, mu, sum(w), w, limit = control$maxit, trace = control$trace >  :
>
>   iteration limit reached
>
> > summary(ModeloBinomialNegativa)
>
>
>
> Call:
>
> glm.nb(formula = Tabagismo ~ ., data = TabModelagem, link = log,
>
>     init.theta = 9955.862378)
>
>
>
> Deviance Residuals:
>
>     Min       1Q   Median       3Q      Max
>
> -1.4866  -0.7821  -0.5889   0.5349   1.6624
>
>
>
> Coefficients:
>
>                                   Estimate Std. Error z value Pr(>|z|)
>
> (Intercept)                     -1.245e+00  1.125e+00  -1.107  0.26847
>
> factor.SexoDic.1                 5.800e-01  1.065e-01   5.447 5.12e-08 ***
>
> factor.Branca.1                 -8.332e-01  1.009e+00  -0.826  0.40872
>
> factor.Negra.1                  -8.210e-01  1.028e+00  -0.799  0.42448
>
> factor.Parda.1                  -9.009e-01  1.012e+00  -0.890  0.37339
>
> factor.Amarela.1                -1.089e+00  1.092e+00  -0.997  0.31853
>
> factor.SemReligiao.1            -9.670e-02  2.430e-01  -0.398  0.69063
>
> factor.Catolica.1               -4.813e-01  2.396e-01  -2.008  0.04459 *
>
> factor.Espirita.1               -1.235e-01  2.807e-01  -0.440  0.65989
>
> factor.Evangelica.1             -9.177e-01  3.126e-01  -2.936  0.00333 **
>
> factor.AfroBrasileira.1          6.068e-01  5.539e-01   1.096  0.27327
>
> factor.Turno.1                   1.530e-03  1.331e-01   0.011  0.99083
>
> factor.Aposentado.1             -4.516e-02  1.358e-01  -0.333  0.73937
>
> factor.OcupaEstDiApenasDesemp.1  7.249e-02  1.816e-01   0.399  0.68973
>
> factor.ComFamilia.1             -4.323e-01  2.739e-01  -1.578  0.11449
>
> factor.ComOutParentes.1         -5.029e-01  4.527e-01  -1.111  0.26658
>
> factor.Republica.1               8.986e-03  2.522e-01   0.036  0.97157
>
> factor.Sozinho.1                -2.475e-01  2.878e-01  -0.860  0.38988
>
> factor.Pensao.1                 -8.439e-01  5.149e-01  -1.639  0.10120
>
> factor.OutroMoradia.1           -5.262e-01  4.316e-01  -1.219  0.22277
>
> factor.RU.1                     -1.937e-01  1.363e-01  -1.421  0.15519
>
> factor.praec4.1                 -1.583e-01  3.432e-01  -0.461  0.64469
>
> IdadeA                           3.787e-02  1.207e-02   3.136  0.00171 **
>
> escola                           8.576e-02  4.429e-02   1.936  0.05282 .
>
> RendaPC                          4.045e-05  1.690e-05   2.393  0.01670 *
>
> Dist                             2.605e-05  1.668e-04   0.156  0.87585
>
> PraecSoma                        2.419e-02  3.972e-02   0.609  0.54264
>
> ---
>
> Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
>
>
>
> (Dispersion parameter for Negative Binomial(9955.862) family taken to be 1)
>
>
>
>     Null deviance: 834.65  on 1135  degrees of freedom
>
> Residual deviance: 706.13  on 1109  degrees of freedom
>
>   (587 observations deleted due to missingness)
>
> AIC: 1642.2
>
>
>
> Number of Fisher Scoring iterations: 1
>
>
>
>
>
>               Theta:  9956
>
>           Std. Err.:  36769
>
> Warning while fitting theta: iteration limit reached
>
>
>
>  2 x log-likelihood:  -1586.177
>
> > par(mfrow=c(2,2))
>
> > qqnorm(resid(ModeloLogistico, type = "deviance"),
>
> +        pch = 20, main = "Logística", las = 1)
>
> > qqline(resid(ModeloLogistico, type = "deviance"))
>
> > qqnorm(resid(ModeloPoisson, type = "deviance"),
>
> +        pch = 20, main = "Poisson", las = 1)
>
> > qqline(resid(ModeloPoisson, type = "deviance"))
>
> > qqnorm(resid(ModeloQuasiPoisson, type = "deviance"),
>
> +        pch = 20, main = "Quasi-Poisson", las = 1)
>
> > qqline(resid(ModeloQuasiPoisson, type = "deviance"))
>
> > qqnorm(resid(ModeloBinomialNegativa, type = "deviance"),
>
> +        pch = 20, main = "Binomial Negativa", las = 1)
>
> > qqline(resid(ModeloBinomialNegativa, type = "deviance"))
>
>
>
> [image: Imagem inline 1]
>
>
>
> Em 8 de fevereiro de 2017 20:35, Leonard Mendonça de Assis <
> assis.leonard em gmail.com> escreveu:
>
> Exato,
>
>
>
> Existem várias funções de ligação pre definidas para cada família. Não
> tenho certeza se ‘log’ é um link válido para binomial, nunca o usei com
> binomial.
>
>
>
> Caso este link não exista, você terá que cria-lo antes, veja um exemplo
> neste local: https://stat.ethz.ch/pipermail/r-help/2013-
> November/362787.html
>
>
>
> Neste exemplo, é criado o link ‘clog’, muito próximo ao que você precisa.
>
>
>
> Mas o que você chama de ‘não consigo criar o modelo’? Eu já ajustei modelo
> logístico com mais de 200 variáveis (Contínuas, discretas, fatores ...) sem
> problemas, a não ser problemas de algumas variáveis serem linearmente
> dependentes e, com isto, me gerou problemas de estimação. Outro problema
> que tive (não o tenho a mais de ano) foi estourar memória do computador.
>
>
>
> Mande pra mim o erro especifico que está dando ao executar o comando. Só
> assim posso ser mais preciso em te ajudar
>
>
>
> *De:* Marcos Bissoli [mailto:mbissoli em gmail.com]
> *Enviada em:* quarta-feira, 8 de fevereiro de 2017 19:35
> *Para:* Leonard Mendonça de Assis <assis.leonard em gmail.com>
>
>
> *Assunto:* Re: [R-br] Distribuição para regressão de resposta binária
>
>
>
> Prezado Leonard e amigos,
>
>
>
> Agradeço muito pelo debate. Venho tentando cada vez mais dialogar com
> estatísticos, pois respeito muito o trabalho de vocês, embora admita ainda
> ser "um menino" na arte.
>
>
>
> Em relação à função de ligação para logística, talvez eu não tenha sido
> claro. Eu tentei uma função "ln(y)" que, ao menos no material que venho
> consultando, seria uma regressão log-binomial. Este seria um modelo ideal,
> e foi minha primeira tentativa. Ou seja, usei um código semelhante a:
>
>
>
> > Modelo -> glm(y~., data = Dados, family = binomial(link = "log"))
>
>
>
> O problema é que o R não consegue criar tal modelo. Tenho muitas variáveis
> explicativas (isso é bastante comum em estudos epidemiológicos
> descritivos), incluindo cinco contínuas, se é que esse seja o motivo. O
> fato é que em uma das referências que citei em e-mail anterior, os autores
> tratam deste problema. Veja os resultados apresentados no resumo de
> Coutinho et al:
>
>
>
> "*RESULTADOS:* As estimativas por ponto e por intervalo [das razões de
> prevalência] obtidas pelas regressões de Cox e Poisson foram semelhantes à
> obtida pela estratificação de Mantel-Haenszel [considerada 'prova-ouro'
> para a Epidemiologia], independentemente da prevalência do desfecho
> [variável resposta] e das covariáveis [variáveis explicativas, pode-se
> dizer; talvez, para que tem uma formação mais voltada para análises
> experimentais, poderíamos dizer que covariáveis referem-se mais a 'blocos']
> do modelo. *O modelo log-binomial apresentou dificuldade de convergência*
> quando o desfecho tinha prevalência alta e havia covariável contínua no
> modelo. A regressão logística [valendo-se de logito como função de ligação]
> produziu estimativas por ponto e por intervalo maiores do que as obtidas
> pelos outros métodos, principalmente para os desfechos com maiores
> prevalências iniciais. *Se interpretados como estimativas de RP, os OR
> superestimariam as associações* para os desfechos com prevalência inicial
> baixa, intermediária e alta em 13%, quase 100% e quatro vezes mais,
> respectivamente."
>
>
>
> [notas minhas] [grifos meus]
>
>
>
> Portanto, os autores indicam (e vi isso em outros artigos) regressão de
> Poisson, mesmo admitindo a variável resposta como sendo binária, variando
> de 0 a 1, que representa a probabilidade de ocorrência do desfecho
> (doença). Quase todos são unânimes em recomendar apenas que se use ajuste
> de variância robusta para sanar problemas nos intervalos de confiança dos
> coeficientes. Em Epidemiologia, mais importante que os valores p são esses
> intervalos de confiança, pois há muitos desdobramentos inferenciais que são
> feitos a partir deles. Portanto, creio que a justificativa para adoção de
> Poisson seja esta: a não convergência da log-binomial.
>
>
>
> Talvez uma outra função de ligação em família binomial possa ser uma
> solução, então? Como disse, tentei "log" e o próprio "logit". "Log" não deu
> convergência e o modelo nem foi gerado. O "logit" eu também tentei, e o
> gráfico de resíduos do modelo foi praticamente idêntico a este de
> quasi-poisson que postei na primeira mensagem. Seria grato caso pudesse me
> indicar algum referencial sobre outras funções de ligação,
> preferencialmente com aplicações. Mas acho que isso se tornará um problema,
> pois os coeficientes gerados certamente me resultarão indicadores não
> reconhecidos na área da Epidemiologia. Não sei até que ponto eu posso
> "converter" coeficientes livremente aplicando pura e simplesmente
> aritméticas a estes coeficientes. Como acho que já expliquei acima: "logit"
> me devolve razão de chances (odds ratio, OR) e "log" me retorna a tão
> desejada razão de prevalência (razão de riscos, RR). Se eu não tiver como
> converter meus coeficientes em uma dessas razões (e preferencialmente a RR)
> eu vou apanhar tanto da banca que vou sair dali roxo e sem título. :D
>
>
>
> (Um parênteses: essas questões, como a brincadeira acima, tem me motivado
> muito a ingressar em um doutorado em Estatística assim que eu concluir
> esse. Creio que há muito há se propor de novo para a Epidemiologia, a
> partir de um conhecimento mais profundo em Estatística. A Epidemiologia é,
> de fato, bastante limitada naquilo que ela "aceita" como técnica válida
> para suas análises inferenciais)
>
>
>
> Quando o senhor diz:
>
>
>
> "Uma segunda forma de analisar, seria termos uma resposta composta de
> número de ocorrências do evento em um total possível",
>
>
>
> eu posso interpretar que isso também seria adaptável a uma probabilidade?
> Valeria a pena eu tentar ajuste com Gamma ou Beta? A binomial negativa eu
> até tentei, mais por curiosidade, pois tenho seguido o material do curso
> que fiz com o Walmes em Varginha e ele preconizou que ela seria recomendada
> para casos de superdispersão, e minha variável resposta aparenta
> subdispersão. Mas a binomial negativa também gerou o mesmo gráfico de
> resíduos. Eu posso usar uma variável binária como resposta num modelo Gamma
> ou Beta? Ou teria que dar algum "tratamento" na variável antes de aplicar
> estes modelos. Confesso que estes ainda não tentei com essa resposta com a
> qual estou enfrentando o problema. Em outras variáveis eu experimentei
> modelos Gamma, mas eles não apresentaram melhor ajuste que o gaussiano, a
> ponto de justificar eu enfrentar tamanha novidade com a banca de
> epidemiologistas. :D
>
>
>
> Agradeço, já, e muito, o diálogo estabelecido.
>
>
>
> Abraços fraternos,
>
>
>
> Marcos
>
>
>
>
>
>
>
>
>
> Em 8 de fevereiro de 2017 17:28, Leonard Mendonça de Assis <
> assis.leonard em gmail.com> escreveu:
>
> Marcos,
>
> Não tenho acesso aos artigos, mas ... baseado em 27 anos de experiência
> ajustando regressão logística, vamos aos meus pitacos:
>
>
>
>    1. Quando eu tenho os Y em forma binária (Presente/ausente),  isto,
>    estatisticamente falando, é uma distribuição de Bernoulli
>    2. Esta distribuição de bernoulli tem como parâmetro, a proporção.
>    Esta proporção varia de 0 a 1.
>    3. Uma forma de ajustar este tipo de dados é a regressão logística,
>    esta pode assumir vários tipos de ligação. Aqui, de cabeça, eu lembro uns
>    5, mas deve ter muito mais.
>    4. Estas funções de ligação se ajustam melhor a determinados tipos de
>    dados e algumas áreas de conhecimento às vezes preferem um em detrimento de
>    outros.
>
>
>
> Baseado neste cenário acima, acho “estranho” utilizar outro tipo de modelo
> (com dados na característica acima), sem uma justificativa bastante forte.
>
>
>
> Uma segunda forma de analisar, seria termos uma resposta composta de
> número de ocorrências do evento em um total possível. Neste caso, teríamos
> uma variedade de distribuições que provavelmente se encaixariam nos
> documentos que você apresentou. Neste caso, o modelo seria ou binomial
> negativa, ou Gama, ou Beta, ou qualquer outra similar.
>
>
>
> Ajustados os conceitos, vamos agora à minha opinião sobre seu problema.
>
>
>
>    1. Pelo que consegui entender de seu texto inicial e seu código
>    fornecido, você está ajustando algo que é 0 ou 1 como sendo uma
>    quase-poisson (esta é uma das opções de ajuste para o que expliquei acima,
>    onde existe uma determinada quantidade.
>    2. Como seus dados são 0/1 (suposição esta que faço baseado em sua
>    explicação), o ajuste estar deficiente é algo bem esperado
>
> Seria bom se você informasse do que se trata a variável tabagismo, se ela
> é 0/1 ou se é uma quantidade. Se for 0/1, certamente o problema dos dados é
> esperado, por serem oriundos de uma distribuição diversa da que você está
> ajustando.
>
>
>
> No aguardo
>
>
>
> Leonard
>
>
>
> *De:* Marcos Bissoli [mailto:mbissoli em gmail.com]
> *Enviada em:* quarta-feira, 8 de fevereiro de 2017 14:57
> *Para:* Leonard Assis <assis.leonard em gmail.com>; a lista Brasileira
> oficial de discussão do programa R. <r-br em listas.c3sl.ufpr.br>
> *Assunto:* Re: [R-br] Distribuição para regressão de resposta binária
>
>
>
> Olá Leonard,
>
>
>
> Muito obrigado pelo interesse no debate.
>
>
>
> Minha afirmação baseada em epidemiologistas é, na verdade, baseada numa
> série de artigos que venho estudando recentemente. Seguem algumas
> referências, dentre outras várias, sobre as quais venho me fundamentando.
>
>
>
> ZOU, G. A Modified Poisson Regression Approach to Prospective Studies with
> Binary Data. *American Journal of Epidemiology*, v. 159, n. 7, p.
> 702–706, 1 abr. 2004.
>
>
>
> COUTINHO, L. M. S.; SCAZUFCA, M.; MENEZES, P. R. Métodos para estimar
> razão de prevalência em estudos de corte transversal. *Revista de Saúde
> Pública*, v. 42, n. 6, p. 992–998, dez. 2008.
>
>
>
> BARROS, A. J.; HIRAKATA, V. N. Alternatives for logistic regression in
> cross-sectional studies: an empirical comparison of models that directly
> estimate the prevalence ratio. *BMC Medical Research Methodology*, v. 3,
> n. 1, p. 21, 20 dez. 2003.
>
>
>
> FRANCISCO, P. M. S. B. et al. Medidas de associação em estudo transversal
> com delineamento complexo: razão de chances e razão de prevalência. *Revista
> Brasileira de Epidemiologia*, v. 11, n. 3, p. 347–355, set. 2008.
>
>
>
> WILLIAMSON, T.; ELIASZIW, M.; FICK, G. H. Log-binomial models: exploring
> failed convergence. *Emerging themes in epidemiology*, v. 10, n. 1, p.
> 14, 13 dez. 2013.
>
>
>
> Abraços fraternos,
>
>
>
> Marcos
>
>
>
> Em 7 de fevereiro de 2017 22:22, Leonard Assis via R-br <
> r-br em listas.c3sl.ufpr.br> escreveu:
>
> Tem ruído aí nesta explicação. Na verdade, o que o "epidemiologista"
> alegou, não me convenceu.
>
>
>
>
>
> Em 7 de fev de 2017 9:14 PM, "Marcos Bissoli via R-br" <
> r-br em listas.c3sl.ufpr.br> escreveu:
>
> Prezados,
>
>
>
> De antemão peço desculpas se desvio o tópico da lista. Mas creio que o
> tema da mensagem é minimamente transversal aos aqui tratados.
>
>
>
> Tenho uma variável resposta binária. Como a frequência da resposta é alta
> (38,11%), teóricos da Estatística aplicada à Epidemiologia sugerem que não
> seja usada uma regressão logística. Neste caso (de alta prevalência do
> desfecho), a primeira opção deveria ser uma log-binomial. Mas (e isso não é
> raro de ocorrer), minha log-binomial não apresentou convergência.
>
>
>
> Quando não há convergência, os teóricos sugerem uma regressão de Poisson
> com variância robusta. Entretanto, como meus dados sugerem subdispersão,
> optei por um modelo de quasi-poisson. Isso já deu certo em outras análises
> que fiz para terceiros. Inclusive, tenho conseguido adaptar a variância
> robusta ao modelo de quasi-poisson. Mas justamente agora, com os dados de
> minha tese...
>
>
>
> O diagnóstico visual está, ao meu ver, péssimo, para ajuste. A imagem
> anexa é do modelo de quasi-poisson. Mas experimentei todos os acima citados
> (logística e Poisson) e o gráfico não diferiu muito.
>
>
>
> [image: Imagem inline 1]
>
>
>
> A dúvida é... Há alguma outra alternativa de técnica de regressão que eu
> poderia tentar? Minhas variáveis explicativas são diversas, em quantidade e
> tipo (há contínuas, ordinais e binárias). Ou será (embora eu ache pouco
> provável) que este gráfico não significa um grande incômodo?
>
>
>
> Fiz o teste de qui-quadrado da deviance residual e estranhamente o valor p
> está resultando em 1, tanto para Poisson quanto para quasi-Poisson. Um
> outro fato estranho é o pseudo R² de Nagelkerke ter acusado 20%: todas as
> outras minhas variáveis resposta não passaram de 12%. Não sei se é correto
> (consultei bibliografia que sugeria isso para a regressão logística), mas
> apliquei um teste de Hosmer e Lemeshow e ele acusou um bom ajuste do
> modelo, também (p = 0,2718). Até uma curva de ROC eu fiz e a área está
> grande no gráfico (mais uma técnica que não sei se deve ser aplicada além
> da regressão logística,).
>
>
>
> Seguem alguns resultados, caso possa ajudar em algo.
>
>
>
> Desde já agradeço qualquer comentário. E reforço minhas desculpas caso eu
> tenha desviado do tópico além do esperado, e desde já acato qualquer
> negativa em prosseguir o debate. Nesse caso, se possível, aceitaria
> sugestões de boas listas para debates nesse nível onde eu pudesse me
> inscrever.
>
>
>
> Há braços,
>
>
>
> Marcos Bissoli
>
> Faculdade de Nutrição
>
> Unifal-MG
>
>
>
> > Mod1 <- glm(Tabagismo~.,data = TabModelagem,family = quasipoisson)
>
> > summary(Mod1)
>
>
>
> Call:
>
> glm(formula = Tabagismo ~ ., family = quasipoisson, data = TabModelagem)
>
>
>
> Deviance Residuals:
>
>     Min       1Q   Median       3Q      Max
>
> -1.4867  -0.7821  -0.5889   0.5349   1.6624
>
>
>
> Coefficients:
>
>                                   Estimate Std. Error t value Pr(>|t|)
>
> (Intercept)                     -1.245e+00  8.738e-01  -1.424 0.154644
>
> factor.SexoDic.1                 5.800e-01  8.273e-02   7.011 4.11e-12 ***
>
> factor.Branca.1                 -8.332e-01  7.836e-01  -1.063 0.287863
>
> factor.Negra.1                  -8.210e-01  7.987e-01  -1.028 0.304185
>
> factor.Parda.1                  -9.009e-01  7.863e-01  -1.146 0.252163
>
> factor.Amarela.1                -1.089e+00  8.481e-01  -1.284 0.199466
>
> factor.SemReligiao.1            -9.670e-02  1.888e-01  -0.512 0.608566
>
> factor.Catolica.1               -4.813e-01  1.862e-01  -2.585 0.009863 **
>
> factor.Espirita.1               -1.235e-01  2.181e-01  -0.566 0.571230
>
> factor.Evangelica.1             -9.177e-01  2.429e-01  -3.779 0.000166 ***
>
> factor.AfroBrasileira.1          6.068e-01  4.303e-01   1.410 0.158794
>
> factor.Turno.1                   1.534e-03  1.034e-01   0.015 0.988169
>
> factor.Aposentado.1             -4.516e-02  1.055e-01  -0.428 0.668597
>
> factor.OcupaEstDiApenasDesemp.1  7.249e-02  1.411e-01   0.514 0.607474
>
> factor.ComFamilia.1             -4.323e-01  2.128e-01  -2.031 0.042444 *
>
> factor.ComOutParentes.1         -5.029e-01  3.517e-01  -1.430 0.153011
>
> factor.Republica.1               8.985e-03  1.959e-01   0.046 0.963429
>
> factor.Sozinho.1                -2.475e-01  2.236e-01  -1.107 0.268673
>
> factor.Pensao.1                 -8.439e-01  4.000e-01  -2.110 0.035106 *
>
> factor.OutroMoradia.1           -5.262e-01  3.353e-01  -1.569 0.116880
>
> factor.RU.1                     -1.937e-01  1.059e-01  -1.830 0.067589 .
>
> factor.praec4.1                 -1.583e-01  2.666e-01  -0.594 0.552951
>
> IdadeA                           3.787e-02  9.381e-03   4.037 5.79e-05 ***
>
> escola                           8.576e-02  3.441e-02   2.492 0.012836 *
>
> RendaPC                          4.045e-05  1.313e-05   3.080 0.002119 **
>
> Dist                             2.605e-05  1.296e-04   0.201 0.840689
>
> PraecSoma                        2.419e-02  3.086e-02   0.784 0.433427
>
> ---
>
> Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
>
>
>
> (Dispersion parameter for quasipoisson family taken to be 0.6036898)
>
>
>
>     Null deviance: 834.67  on 1135  degrees of freedom
>
> Residual deviance: 706.16  on 1109  degrees of freedom
>
> AIC: NA
>
>
>
> Number of Fisher Scoring iterations: 5
>
>
>
>
>
>
>
> --
>
> MARCOS BISSOLI
>
> Faculdade de Nutrição
> Universidade Federal de Alfenas
>
> Blog: bocademiamaldita.blogspot.com/
>
> E-mail: mbissoli em gmail.com
> Twitter: #mbissoli
>
>
> Alfenas, Minas Gerais, Brasil
>
>
> *****Pense na Natureza antes de Imprimir*****
> Divulgue ON-LINE
>
> Eu apoio a ENEN "na luta por um Brasil sem fome"
>
> "por ĉiu popolo ties propran lingvon, por ĉiuj popoloj la esperantan"
> (para cada povo sua própria língua, para todos os povos o Esperanto)
>
>
>
> E nunca votarei no PSDB/DEM!
>
>
>
> _______________________________________________
> R-br mailing list
> R-br em listas.c3sl.ufpr.br
> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
> código mínimo reproduzível.
>
>
> _______________________________________________
> R-br mailing list
> R-br em listas.c3sl.ufpr.br
> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
> código mínimo reproduzível.
>
>
>
>
>
> --
>
> MARCOS BISSOLI
>
> Faculdade de Nutrição
> Universidade Federal de Alfenas
>
> Blog: bocademiamaldita.blogspot.com/
>
> E-mail: mbissoli em gmail.com
> Twitter: #mbissoli
>
>
> Alfenas, Minas Gerais, Brasil
>
>
> *****Pense na Natureza antes de Imprimir*****
> Divulgue ON-LINE
>
> Eu apoio a ENEN "na luta por um Brasil sem fome"
>
> "por ĉiu popolo ties propran lingvon, por ĉiuj popoloj la esperantan"
> (para cada povo sua própria língua, para todos os povos o Esperanto)
>
>
>
> E nunca votarei no PSDB/DEM!
>
>
>
>
>
> --
>
> MARCOS BISSOLI
>
> Faculdade de Nutrição
> Universidade Federal de Alfenas
>
> Blog: bocademiamaldita.blogspot.com/
>
> E-mail: mbissoli em gmail.com
> Twitter: #mbissoli
>
>
> Alfenas, Minas Gerais, Brasil
>
>
> *****Pense na Natureza antes de Imprimir*****
> Divulgue ON-LINE
>
> Eu apoio a ENEN "na luta por um Brasil sem fome"
>
> "por ĉiu popolo ties propran lingvon, por ĉiuj popoloj la esperantan"
> (para cada povo sua própria língua, para todos os povos o Esperanto)
>
>
>
> E nunca votarei no PSDB/DEM!
>
>
>
>
>
> --
>
> MARCOS BISSOLI
>
> Faculdade de Nutrição
> Universidade Federal de Alfenas
>
> Blog: bocademiamaldita.blogspot.com/
>
> E-mail: mbissoli em gmail.com
> Twitter: #mbissoli
>
>
> Alfenas, Minas Gerais, Brasil
>
>
> *****Pense na Natureza antes de Imprimir*****
> Divulgue ON-LINE
>
> Eu apoio a ENEN "na luta por um Brasil sem fome"
>
> "por ĉiu popolo ties propran lingvon, por ĉiuj popoloj la esperantan"
> (para cada povo sua própria língua, para todos os povos o Esperanto)
>
>
>
> E nunca votarei no PSDB/DEM!
>
>
>
>
>
> --
>
> MARCOS BISSOLI
>
> Faculdade de Nutrição
> Universidade Federal de Alfenas
>
> Blog: bocademiamaldita.blogspot.com/
>
> E-mail: mbissoli em gmail.com
> Twitter: #mbissoli
>
>
> Alfenas, Minas Gerais, Brasil
>
>
> *****Pense na Natureza antes de Imprimir*****
> Divulgue ON-LINE
>
> Eu apoio a ENEN "na luta por um Brasil sem fome"
>
> "por ĉiu popolo ties propran lingvon, por ĉiuj popoloj la esperantan"
> (para cada povo sua própria língua, para todos os povos o Esperanto)
>
>
>
> E nunca votarei no PSDB/DEM!
>
> _______________________________________________
> R-br mailing list
> R-br em listas.c3sl.ufpr.br
> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
> código mínimo reproduzível.
>



-- 
*Vinicius Brito Rocha.*
*Estatístico e Atuário *
*M.Sc. Engenharia de Produção/PO*

*Ph.D. Estudante Sistemas Computacionais*
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20170511/328db9b7/attachment-0001.html>
-------------- Próxima Parte ----------
Um anexo não-texto foi limpo...
Nome: image004.png
Tipo: image/png
Tamanho: 25239 bytes
Descrição: não disponível
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20170511/328db9b7/attachment-0002.png>
-------------- Próxima Parte ----------
Um anexo não-texto foi limpo...
Nome: image003.png
Tipo: image/png
Tamanho: 46858 bytes
Descrição: não disponível
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20170511/328db9b7/attachment-0003.png>


Mais detalhes sobre a lista de discussão R-br