[R-br] RES: Fwd: Distribuição para regressão de resposta binária
Vinicius Brito Rocha
viniciusbritor em gmail.com
Quinta Maio 11 17:29:16 BRT 2017
Marcos,
Se me permite uma sugestão:
Quando vc diz:
"Tenho uma variável resposta binária. Como a frequência da resposta é alta
(38,11%), teóricos da Estatística aplicada à Epidemiologia sugerem que não
seja usada uma regressão logística"
Este problema é facilmente resolvido um processo de reamostragem para
balancear as classes. vc pode então usar o um regressão logistica, ou
qualquer outro método de classificação supervionada para resolver seu
problema.
E como foi falado, usar uma matriz de confusão para checar sua taxa de
acerto.
Abs
Vinicius
Em 9 de fevereiro de 2017 10:18, Leonard Mendonça de Assis via R-br <
r-br em listas.c3sl.ufpr.br> escreveu:
> Marcos,
>
>
>
> Não vou discutir escolhas de Factor e etc pois não é o assunto. Sugiro que
> revise o assunto.
>
>
>
>
>
> O erro no primeiro ajuste(binomial(link=log) é que o modelo não está
> conseguindo convergir.
>
> O modelo Poisson, (Poisson, quase Poisson, binomial negativo, etc) não faz
> sentido em seus dados, vide o que expliquei nos e-mails anteriores.
>
>
>
> O que você pode fazer?
>
>
>
> Você tem dúzias de artigos comentando que o melhor seria
> binomial(link=log), mas você tem problemas de convergência neste caso. Como
> você já tem uma estimativa dos parâmetros com link logit, utilize estes
> coeficientes como chute inicial do modelo.
>
>
>
> Não gosto destes testes gráficos de ajuste, prefiro olhar
> cross-validation, roc curve ou algo assim.
>
>
>
> Leonard
>
>
>
> *De:* R-br [mailto:r-br-bounces em listas.c3sl.ufpr.br] *Em nome de *Marcos
> Bissoli via R-br
> *Enviada em:* quinta-feira, 9 de fevereiro de 2017 10:35
> *Para:* a lista Brasileira oficial de discussão do programa R. <
> r-br em listas.c3sl.ufpr.br>
> *Assunto:* [R-br] Fwd: Distribuição para regressão de resposta binária
>
>
>
>
>
> ---------- Mensagem encaminhada ----------
> De: *Marcos Bissoli* <mbissoli em gmail.com>
> Data: 9 de fevereiro de 2017 09:38
> Assunto: Re: [R-br] Distribuição para regressão de resposta binária
> Para: Leonard Mendonça de Assis <assis.leonard em gmail.com>
>
> Bom dia,
>
>
>
> Mais uma vez, muito obrigado pela oportunidade de diálogo.
>
>
>
> Seguem códigos aplicados ao meu banco de dados. Modelei com diversas
> técnicas. Perceba que os gráficos de diagnóstico não diferem muito entre
> si, nestas que estou testando. E a dúvida, talvez, central, seja essa:
> esses gráficos são, de fato, tão relevantes? Pois, como eu disse, alguns
> testes de ajuste que fiz deram resultados satisfatórios. Até que ponto esse
> diagnóstico visual de ajuste é um problema? Percebam, também, que não há
> grandes diferenças inclusive com o gráfico da regressão logística. Meu
> problema com a logística, repito, é que ela me retorna odds ratios, e essa
> medida não tem sido bem aceita entre epidemiologistas. Por isso eu prefiro
> famílias com função de ligação "log", pois assim eu consigo facilmente as
> razões de prevalência.
>
>
>
> Percebam, ainda, que a log binomial retorna erro e não gera um objeto. Há
> algum ajuste a mais que eu possa fazer no código para ela funcionar? Na
> literatura que consultei, quando isso ocorre, a sugestão é que se use a
> Poisson com variância robusta. Percebam, também, que os coeficientes
> significantes não mudam de modelo para modelo, à exceção da Quasi-Poisson
> que é mais "sensível" (estou usando um termo epidemiológico aqui) para
> detectar fatores potencialmente causais.
>
>
>
> Tabagismo é a variável binária de resposta: 1 para fumantes, 0 para não
> fumantes. As demais marcadas com "factor" são também binárias. As sem
> "factor" são contínuas ou discretas.
>
>
>
> > TabModelagem <- data.frame(Tabagismo,factor(SexoDic),factor(Branca),factor(Negra),factor(Parda),
>
> + factor(Amarela),factor(SemReligiao),factor(Catolica),
>
> + factor(Espirita),factor(Evangelica),factor(AfroBrasileira),
>
> + factor(Turno),factor(Aposentado),factor(OcupaEstDiApenasDesemp),
>
> + factor(ComFamilia),factor(ComOutParentes),factor(Republica),
>
> + factor(Sozinho),factor(Pensao),factor(OutroMoradia),factor(RU),
>
> + factor(praec4),IdadeA,escola,RendaPC,Dist,PraecSoma)
>
> > ModeloLogBinomial <- glm(Tabagismo~.,data = TabModelagem,family = binomial(link = log))
>
> Erro: nenhum jogo válido de coeficientes tem sido encontrado: por favor, fornece valores iniciais
>
> > ModeloLogistico <- glm(Tabagismo~.,data = TabModelagem,family = binomial(link = logit))
>
> > summary(ModeloLogistico)
>
>
>
> Call:
>
> glm(formula = Tabagismo ~ ., family = binomial(link = logit),
>
> data = TabModelagem)
>
>
>
> Deviance Residuals:
>
> Min 1Q Median 3Q Max
>
> -2.0034 -0.8824 -0.5459 1.0052 2.3721
>
>
>
> Coefficients:
>
> Estimate Std. Error z value Pr(>|z|)
>
> (Intercept) 1.215e+01 8.827e+02 0.014 0.989021
>
> factor.SexoDic.1 1.042e+00 1.430e-01 7.281 3.31e-13 ***
>
> factor.Branca.1 -1.481e+01 8.827e+02 -0.017 0.986618
>
> factor.Negra.1 -1.474e+01 8.827e+02 -0.017 0.986677
>
> factor.Parda.1 -1.487e+01 8.827e+02 -0.017 0.986563
>
> factor.Amarela.1 -1.545e+01 8.827e+02 -0.018 0.986037
>
> factor.SemReligiao.1 -1.956e-01 4.151e-01 -0.471 0.637543
>
> factor.Catolica.1 -1.009e+00 4.026e-01 -2.506 0.012225 *
>
> factor.Espirita.1 -3.190e-01 4.624e-01 -0.690 0.490209
>
> factor.Evangelica.1 -1.759e+00 4.694e-01 -3.747 0.000179 ***
>
> factor.AfroBrasileira.1 1.438e+01 4.219e+02 0.034 0.972808
>
> factor.Turno.1 3.093e-02 1.920e-01 0.161 0.872056
>
> factor.Aposentado.1 -9.971e-02 1.901e-01 -0.524 0.600027
>
> factor.OcupaEstDiApenasDesemp.1 1.799e-01 2.670e-01 0.674 0.500536
>
> factor.ComFamilia.1 -6.624e-01 4.098e-01 -1.616 0.106055
>
> factor.ComOutParentes.1 -7.401e-01 5.805e-01 -1.275 0.202332
>
> factor.Republica.1 6.300e-02 3.837e-01 0.164 0.869588
>
> factor.Sozinho.1 -5.343e-01 4.299e-01 -1.243 0.213914
>
> factor.Pensao.1 -1.324e+00 6.812e-01 -1.944 0.051938 .
>
> factor.OutroMoradia.1 -9.557e-01 5.861e-01 -1.631 0.102934
>
> factor.RU.1 -3.592e-01 1.911e-01 -1.880 0.060152 .
>
> factor.praec4.1 -2.845e-01 4.985e-01 -0.571 0.568191
>
> IdadeA 7.917e-02 2.043e-02 3.875 0.000107 ***
>
> escola 1.200e-01 6.289e-02 1.909 0.056297 .
>
> RendaPC 1.699e-04 4.093e-05 4.151 3.31e-05 ***
>
> Dist 1.634e-04 2.525e-04 0.647 0.517573
>
> PraecSoma 5.281e-02 5.452e-02 0.969 0.332692
>
> ---
>
> Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
>
>
>
> (Dispersion parameter for binomial family taken to be 1)
>
>
>
> Null deviance: 1516.6 on 1135 degrees of freedom
>
> Residual deviance: 1279.3 on 1109 degrees of freedom
>
> (587 observations deleted due to missingness)
>
> AIC: 1333.3
>
>
>
> Number of Fisher Scoring iterations: 13
>
>
>
> > ModeloPoisson <- glm(Tabagismo~.,data = TabModelagem,family = poisson(link = log))
>
> > summary(ModeloPoisson)
>
>
>
> Call:
>
> glm(formula = Tabagismo ~ ., family = poisson(link = log), data = TabModelagem)
>
>
>
> Deviance Residuals:
>
> Min 1Q Median 3Q Max
>
> -1.4867 -0.7821 -0.5889 0.5349 1.6624
>
>
>
> Coefficients:
>
> Estimate Std. Error z value Pr(>|z|)
>
> (Intercept) -1.245e+00 1.125e+00 -1.107 0.26845
>
> factor.SexoDic.1 5.800e-01 1.065e-01 5.447 5.11e-08 ***
>
> factor.Branca.1 -8.332e-01 1.009e+00 -0.826 0.40870
>
> factor.Negra.1 -8.210e-01 1.028e+00 -0.799 0.42446
>
> factor.Parda.1 -9.009e-01 1.012e+00 -0.890 0.37337
>
> factor.Amarela.1 -1.089e+00 1.092e+00 -0.998 0.31852
>
> factor.SemReligiao.1 -9.670e-02 2.430e-01 -0.398 0.69062
>
> factor.Catolica.1 -4.813e-01 2.396e-01 -2.009 0.04459 *
>
> factor.Espirita.1 -1.235e-01 2.806e-01 -0.440 0.65987
>
> factor.Evangelica.1 -9.177e-01 3.126e-01 -2.936 0.00332 **
>
> factor.AfroBrasileira.1 6.068e-01 5.538e-01 1.096 0.27325
>
> factor.Turno.1 1.534e-03 1.331e-01 0.012 0.99081
>
> factor.Aposentado.1 -4.516e-02 1.357e-01 -0.333 0.73937
>
> factor.OcupaEstDiApenasDesemp.1 7.249e-02 1.816e-01 0.399 0.68972
>
> factor.ComFamilia.1 -4.323e-01 2.739e-01 -1.578 0.11447
>
> factor.ComOutParentes.1 -5.029e-01 4.527e-01 -1.111 0.26655
>
> factor.Republica.1 8.985e-03 2.522e-01 0.036 0.97157
>
> factor.Sozinho.1 -2.475e-01 2.878e-01 -0.860 0.38987
>
> factor.Pensao.1 -8.439e-01 5.148e-01 -1.639 0.10117
>
> factor.OutroMoradia.1 -5.262e-01 4.316e-01 -1.219 0.22275
>
> factor.RU.1 -1.937e-01 1.363e-01 -1.421 0.15517
>
> factor.praec4.1 -1.583e-01 3.432e-01 -0.461 0.64469
>
> IdadeA 3.787e-02 1.207e-02 3.136 0.00171 **
>
> escola 8.576e-02 4.429e-02 1.936 0.05281 .
>
> RendaPC 4.045e-05 1.690e-05 2.393 0.01670 *
>
> Dist 2.605e-05 1.668e-04 0.156 0.87586
>
> PraecSoma 2.419e-02 3.972e-02 0.609 0.54262
>
> ---
>
> Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
>
>
>
> (Dispersion parameter for poisson family taken to be 1)
>
>
>
> Null deviance: 834.67 on 1135 degrees of freedom
>
> Residual deviance: 706.16 on 1109 degrees of freedom
>
> (587 observations deleted due to missingness)
>
> AIC: 1640.2
>
>
>
> Number of Fisher Scoring iterations: 5
>
>
>
> > ModeloQuasiPoisson <- glm(Tabagismo~.,data = TabModelagem,family = quasipoisson(link = log))
>
> > summary(ModeloQuasiPoisson)
>
>
>
> Call:
>
> glm(formula = Tabagismo ~ ., family = quasipoisson(link = log),
>
> data = TabModelagem)
>
>
>
> Deviance Residuals:
>
> Min 1Q Median 3Q Max
>
> -1.4867 -0.7821 -0.5889 0.5349 1.6624
>
>
>
> Coefficients:
>
> Estimate Std. Error t value Pr(>|t|)
>
> (Intercept) -1.245e+00 8.738e-01 -1.424 0.154644
>
> factor.SexoDic.1 5.800e-01 8.273e-02 7.011 4.11e-12 ***
>
> factor.Branca.1 -8.332e-01 7.836e-01 -1.063 0.287863
>
> factor.Negra.1 -8.210e-01 7.987e-01 -1.028 0.304185
>
> factor.Parda.1 -9.009e-01 7.863e-01 -1.146 0.252163
>
> factor.Amarela.1 -1.089e+00 8.481e-01 -1.284 0.199466
>
> factor.SemReligiao.1 -9.670e-02 1.888e-01 -0.512 0.608566
>
> factor.Catolica.1 -4.813e-01 1.862e-01 -2.585 0.009863 **
>
> factor.Espirita.1 -1.235e-01 2.181e-01 -0.566 0.571230
>
> factor.Evangelica.1 -9.177e-01 2.429e-01 -3.779 0.000166 ***
>
> factor.AfroBrasileira.1 6.068e-01 4.303e-01 1.410 0.158794
>
> factor.Turno.1 1.534e-03 1.034e-01 0.015 0.988169
>
> factor.Aposentado.1 -4.516e-02 1.055e-01 -0.428 0.668597
>
> factor.OcupaEstDiApenasDesemp.1 7.249e-02 1.411e-01 0.514 0.607474
>
> factor.ComFamilia.1 -4.323e-01 2.128e-01 -2.031 0.042444 *
>
> factor.ComOutParentes.1 -5.029e-01 3.517e-01 -1.430 0.153011
>
> factor.Republica.1 8.985e-03 1.959e-01 0.046 0.963429
>
> factor.Sozinho.1 -2.475e-01 2.236e-01 -1.107 0.268673
>
> factor.Pensao.1 -8.439e-01 4.000e-01 -2.110 0.035106 *
>
> factor.OutroMoradia.1 -5.262e-01 3.353e-01 -1.569 0.116880
>
> factor.RU.1 -1.937e-01 1.059e-01 -1.830 0.067589 .
>
> factor.praec4.1 -1.583e-01 2.666e-01 -0.594 0.552951
>
> IdadeA 3.787e-02 9.381e-03 4.037 5.79e-05 ***
>
> escola 8.576e-02 3.441e-02 2.492 0.012836 *
>
> RendaPC 4.045e-05 1.313e-05 3.080 0.002119 **
>
> Dist 2.605e-05 1.296e-04 0.201 0.840689
>
> PraecSoma 2.419e-02 3.086e-02 0.784 0.433427
>
> ---
>
> Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
>
>
>
> (Dispersion parameter for quasipoisson family taken to be 0.6036898)
>
>
>
> Null deviance: 834.67 on 1135 degrees of freedom
>
> Residual deviance: 706.16 on 1109 degrees of freedom
>
> (587 observations deleted due to missingness)
>
> AIC: NA
>
>
>
> Number of Fisher Scoring iterations: 5
>
>
>
> > library(MASS)
>
> > ModeloBinomialNegativa <- glm.nb(Tabagismo~.,data = TabModelagem,link = log)
>
> Warning messages:
>
> 1: In theta.ml(Y, mu, sum(w), w, limit = control$maxit, trace = control$trace > :
>
> iteration limit reached
>
> 2: In theta.ml(Y, mu, sum(w), w, limit = control$maxit, trace = control$trace > :
>
> iteration limit reached
>
> > summary(ModeloBinomialNegativa)
>
>
>
> Call:
>
> glm.nb(formula = Tabagismo ~ ., data = TabModelagem, link = log,
>
> init.theta = 9955.862378)
>
>
>
> Deviance Residuals:
>
> Min 1Q Median 3Q Max
>
> -1.4866 -0.7821 -0.5889 0.5349 1.6624
>
>
>
> Coefficients:
>
> Estimate Std. Error z value Pr(>|z|)
>
> (Intercept) -1.245e+00 1.125e+00 -1.107 0.26847
>
> factor.SexoDic.1 5.800e-01 1.065e-01 5.447 5.12e-08 ***
>
> factor.Branca.1 -8.332e-01 1.009e+00 -0.826 0.40872
>
> factor.Negra.1 -8.210e-01 1.028e+00 -0.799 0.42448
>
> factor.Parda.1 -9.009e-01 1.012e+00 -0.890 0.37339
>
> factor.Amarela.1 -1.089e+00 1.092e+00 -0.997 0.31853
>
> factor.SemReligiao.1 -9.670e-02 2.430e-01 -0.398 0.69063
>
> factor.Catolica.1 -4.813e-01 2.396e-01 -2.008 0.04459 *
>
> factor.Espirita.1 -1.235e-01 2.807e-01 -0.440 0.65989
>
> factor.Evangelica.1 -9.177e-01 3.126e-01 -2.936 0.00333 **
>
> factor.AfroBrasileira.1 6.068e-01 5.539e-01 1.096 0.27327
>
> factor.Turno.1 1.530e-03 1.331e-01 0.011 0.99083
>
> factor.Aposentado.1 -4.516e-02 1.358e-01 -0.333 0.73937
>
> factor.OcupaEstDiApenasDesemp.1 7.249e-02 1.816e-01 0.399 0.68973
>
> factor.ComFamilia.1 -4.323e-01 2.739e-01 -1.578 0.11449
>
> factor.ComOutParentes.1 -5.029e-01 4.527e-01 -1.111 0.26658
>
> factor.Republica.1 8.986e-03 2.522e-01 0.036 0.97157
>
> factor.Sozinho.1 -2.475e-01 2.878e-01 -0.860 0.38988
>
> factor.Pensao.1 -8.439e-01 5.149e-01 -1.639 0.10120
>
> factor.OutroMoradia.1 -5.262e-01 4.316e-01 -1.219 0.22277
>
> factor.RU.1 -1.937e-01 1.363e-01 -1.421 0.15519
>
> factor.praec4.1 -1.583e-01 3.432e-01 -0.461 0.64469
>
> IdadeA 3.787e-02 1.207e-02 3.136 0.00171 **
>
> escola 8.576e-02 4.429e-02 1.936 0.05282 .
>
> RendaPC 4.045e-05 1.690e-05 2.393 0.01670 *
>
> Dist 2.605e-05 1.668e-04 0.156 0.87585
>
> PraecSoma 2.419e-02 3.972e-02 0.609 0.54264
>
> ---
>
> Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
>
>
>
> (Dispersion parameter for Negative Binomial(9955.862) family taken to be 1)
>
>
>
> Null deviance: 834.65 on 1135 degrees of freedom
>
> Residual deviance: 706.13 on 1109 degrees of freedom
>
> (587 observations deleted due to missingness)
>
> AIC: 1642.2
>
>
>
> Number of Fisher Scoring iterations: 1
>
>
>
>
>
> Theta: 9956
>
> Std. Err.: 36769
>
> Warning while fitting theta: iteration limit reached
>
>
>
> 2 x log-likelihood: -1586.177
>
> > par(mfrow=c(2,2))
>
> > qqnorm(resid(ModeloLogistico, type = "deviance"),
>
> + pch = 20, main = "Logística", las = 1)
>
> > qqline(resid(ModeloLogistico, type = "deviance"))
>
> > qqnorm(resid(ModeloPoisson, type = "deviance"),
>
> + pch = 20, main = "Poisson", las = 1)
>
> > qqline(resid(ModeloPoisson, type = "deviance"))
>
> > qqnorm(resid(ModeloQuasiPoisson, type = "deviance"),
>
> + pch = 20, main = "Quasi-Poisson", las = 1)
>
> > qqline(resid(ModeloQuasiPoisson, type = "deviance"))
>
> > qqnorm(resid(ModeloBinomialNegativa, type = "deviance"),
>
> + pch = 20, main = "Binomial Negativa", las = 1)
>
> > qqline(resid(ModeloBinomialNegativa, type = "deviance"))
>
>
>
> [image: Imagem inline 1]
>
>
>
> Em 8 de fevereiro de 2017 20:35, Leonard Mendonça de Assis <
> assis.leonard em gmail.com> escreveu:
>
> Exato,
>
>
>
> Existem várias funções de ligação pre definidas para cada família. Não
> tenho certeza se ‘log’ é um link válido para binomial, nunca o usei com
> binomial.
>
>
>
> Caso este link não exista, você terá que cria-lo antes, veja um exemplo
> neste local: https://stat.ethz.ch/pipermail/r-help/2013-
> November/362787.html
>
>
>
> Neste exemplo, é criado o link ‘clog’, muito próximo ao que você precisa.
>
>
>
> Mas o que você chama de ‘não consigo criar o modelo’? Eu já ajustei modelo
> logístico com mais de 200 variáveis (Contínuas, discretas, fatores ...) sem
> problemas, a não ser problemas de algumas variáveis serem linearmente
> dependentes e, com isto, me gerou problemas de estimação. Outro problema
> que tive (não o tenho a mais de ano) foi estourar memória do computador.
>
>
>
> Mande pra mim o erro especifico que está dando ao executar o comando. Só
> assim posso ser mais preciso em te ajudar
>
>
>
> *De:* Marcos Bissoli [mailto:mbissoli em gmail.com]
> *Enviada em:* quarta-feira, 8 de fevereiro de 2017 19:35
> *Para:* Leonard Mendonça de Assis <assis.leonard em gmail.com>
>
>
> *Assunto:* Re: [R-br] Distribuição para regressão de resposta binária
>
>
>
> Prezado Leonard e amigos,
>
>
>
> Agradeço muito pelo debate. Venho tentando cada vez mais dialogar com
> estatísticos, pois respeito muito o trabalho de vocês, embora admita ainda
> ser "um menino" na arte.
>
>
>
> Em relação à função de ligação para logística, talvez eu não tenha sido
> claro. Eu tentei uma função "ln(y)" que, ao menos no material que venho
> consultando, seria uma regressão log-binomial. Este seria um modelo ideal,
> e foi minha primeira tentativa. Ou seja, usei um código semelhante a:
>
>
>
> > Modelo -> glm(y~., data = Dados, family = binomial(link = "log"))
>
>
>
> O problema é que o R não consegue criar tal modelo. Tenho muitas variáveis
> explicativas (isso é bastante comum em estudos epidemiológicos
> descritivos), incluindo cinco contínuas, se é que esse seja o motivo. O
> fato é que em uma das referências que citei em e-mail anterior, os autores
> tratam deste problema. Veja os resultados apresentados no resumo de
> Coutinho et al:
>
>
>
> "*RESULTADOS:* As estimativas por ponto e por intervalo [das razões de
> prevalência] obtidas pelas regressões de Cox e Poisson foram semelhantes à
> obtida pela estratificação de Mantel-Haenszel [considerada 'prova-ouro'
> para a Epidemiologia], independentemente da prevalência do desfecho
> [variável resposta] e das covariáveis [variáveis explicativas, pode-se
> dizer; talvez, para que tem uma formação mais voltada para análises
> experimentais, poderíamos dizer que covariáveis referem-se mais a 'blocos']
> do modelo. *O modelo log-binomial apresentou dificuldade de convergência*
> quando o desfecho tinha prevalência alta e havia covariável contínua no
> modelo. A regressão logística [valendo-se de logito como função de ligação]
> produziu estimativas por ponto e por intervalo maiores do que as obtidas
> pelos outros métodos, principalmente para os desfechos com maiores
> prevalências iniciais. *Se interpretados como estimativas de RP, os OR
> superestimariam as associações* para os desfechos com prevalência inicial
> baixa, intermediária e alta em 13%, quase 100% e quatro vezes mais,
> respectivamente."
>
>
>
> [notas minhas] [grifos meus]
>
>
>
> Portanto, os autores indicam (e vi isso em outros artigos) regressão de
> Poisson, mesmo admitindo a variável resposta como sendo binária, variando
> de 0 a 1, que representa a probabilidade de ocorrência do desfecho
> (doença). Quase todos são unânimes em recomendar apenas que se use ajuste
> de variância robusta para sanar problemas nos intervalos de confiança dos
> coeficientes. Em Epidemiologia, mais importante que os valores p são esses
> intervalos de confiança, pois há muitos desdobramentos inferenciais que são
> feitos a partir deles. Portanto, creio que a justificativa para adoção de
> Poisson seja esta: a não convergência da log-binomial.
>
>
>
> Talvez uma outra função de ligação em família binomial possa ser uma
> solução, então? Como disse, tentei "log" e o próprio "logit". "Log" não deu
> convergência e o modelo nem foi gerado. O "logit" eu também tentei, e o
> gráfico de resíduos do modelo foi praticamente idêntico a este de
> quasi-poisson que postei na primeira mensagem. Seria grato caso pudesse me
> indicar algum referencial sobre outras funções de ligação,
> preferencialmente com aplicações. Mas acho que isso se tornará um problema,
> pois os coeficientes gerados certamente me resultarão indicadores não
> reconhecidos na área da Epidemiologia. Não sei até que ponto eu posso
> "converter" coeficientes livremente aplicando pura e simplesmente
> aritméticas a estes coeficientes. Como acho que já expliquei acima: "logit"
> me devolve razão de chances (odds ratio, OR) e "log" me retorna a tão
> desejada razão de prevalência (razão de riscos, RR). Se eu não tiver como
> converter meus coeficientes em uma dessas razões (e preferencialmente a RR)
> eu vou apanhar tanto da banca que vou sair dali roxo e sem título. :D
>
>
>
> (Um parênteses: essas questões, como a brincadeira acima, tem me motivado
> muito a ingressar em um doutorado em Estatística assim que eu concluir
> esse. Creio que há muito há se propor de novo para a Epidemiologia, a
> partir de um conhecimento mais profundo em Estatística. A Epidemiologia é,
> de fato, bastante limitada naquilo que ela "aceita" como técnica válida
> para suas análises inferenciais)
>
>
>
> Quando o senhor diz:
>
>
>
> "Uma segunda forma de analisar, seria termos uma resposta composta de
> número de ocorrências do evento em um total possível",
>
>
>
> eu posso interpretar que isso também seria adaptável a uma probabilidade?
> Valeria a pena eu tentar ajuste com Gamma ou Beta? A binomial negativa eu
> até tentei, mais por curiosidade, pois tenho seguido o material do curso
> que fiz com o Walmes em Varginha e ele preconizou que ela seria recomendada
> para casos de superdispersão, e minha variável resposta aparenta
> subdispersão. Mas a binomial negativa também gerou o mesmo gráfico de
> resíduos. Eu posso usar uma variável binária como resposta num modelo Gamma
> ou Beta? Ou teria que dar algum "tratamento" na variável antes de aplicar
> estes modelos. Confesso que estes ainda não tentei com essa resposta com a
> qual estou enfrentando o problema. Em outras variáveis eu experimentei
> modelos Gamma, mas eles não apresentaram melhor ajuste que o gaussiano, a
> ponto de justificar eu enfrentar tamanha novidade com a banca de
> epidemiologistas. :D
>
>
>
> Agradeço, já, e muito, o diálogo estabelecido.
>
>
>
> Abraços fraternos,
>
>
>
> Marcos
>
>
>
>
>
>
>
>
>
> Em 8 de fevereiro de 2017 17:28, Leonard Mendonça de Assis <
> assis.leonard em gmail.com> escreveu:
>
> Marcos,
>
> Não tenho acesso aos artigos, mas ... baseado em 27 anos de experiência
> ajustando regressão logística, vamos aos meus pitacos:
>
>
>
> 1. Quando eu tenho os Y em forma binária (Presente/ausente), isto,
> estatisticamente falando, é uma distribuição de Bernoulli
> 2. Esta distribuição de bernoulli tem como parâmetro, a proporção.
> Esta proporção varia de 0 a 1.
> 3. Uma forma de ajustar este tipo de dados é a regressão logística,
> esta pode assumir vários tipos de ligação. Aqui, de cabeça, eu lembro uns
> 5, mas deve ter muito mais.
> 4. Estas funções de ligação se ajustam melhor a determinados tipos de
> dados e algumas áreas de conhecimento às vezes preferem um em detrimento de
> outros.
>
>
>
> Baseado neste cenário acima, acho “estranho” utilizar outro tipo de modelo
> (com dados na característica acima), sem uma justificativa bastante forte.
>
>
>
> Uma segunda forma de analisar, seria termos uma resposta composta de
> número de ocorrências do evento em um total possível. Neste caso, teríamos
> uma variedade de distribuições que provavelmente se encaixariam nos
> documentos que você apresentou. Neste caso, o modelo seria ou binomial
> negativa, ou Gama, ou Beta, ou qualquer outra similar.
>
>
>
> Ajustados os conceitos, vamos agora à minha opinião sobre seu problema.
>
>
>
> 1. Pelo que consegui entender de seu texto inicial e seu código
> fornecido, você está ajustando algo que é 0 ou 1 como sendo uma
> quase-poisson (esta é uma das opções de ajuste para o que expliquei acima,
> onde existe uma determinada quantidade.
> 2. Como seus dados são 0/1 (suposição esta que faço baseado em sua
> explicação), o ajuste estar deficiente é algo bem esperado
>
> Seria bom se você informasse do que se trata a variável tabagismo, se ela
> é 0/1 ou se é uma quantidade. Se for 0/1, certamente o problema dos dados é
> esperado, por serem oriundos de uma distribuição diversa da que você está
> ajustando.
>
>
>
> No aguardo
>
>
>
> Leonard
>
>
>
> *De:* Marcos Bissoli [mailto:mbissoli em gmail.com]
> *Enviada em:* quarta-feira, 8 de fevereiro de 2017 14:57
> *Para:* Leonard Assis <assis.leonard em gmail.com>; a lista Brasileira
> oficial de discussão do programa R. <r-br em listas.c3sl.ufpr.br>
> *Assunto:* Re: [R-br] Distribuição para regressão de resposta binária
>
>
>
> Olá Leonard,
>
>
>
> Muito obrigado pelo interesse no debate.
>
>
>
> Minha afirmação baseada em epidemiologistas é, na verdade, baseada numa
> série de artigos que venho estudando recentemente. Seguem algumas
> referências, dentre outras várias, sobre as quais venho me fundamentando.
>
>
>
> ZOU, G. A Modified Poisson Regression Approach to Prospective Studies with
> Binary Data. *American Journal of Epidemiology*, v. 159, n. 7, p.
> 702–706, 1 abr. 2004.
>
>
>
> COUTINHO, L. M. S.; SCAZUFCA, M.; MENEZES, P. R. Métodos para estimar
> razão de prevalência em estudos de corte transversal. *Revista de Saúde
> Pública*, v. 42, n. 6, p. 992–998, dez. 2008.
>
>
>
> BARROS, A. J.; HIRAKATA, V. N. Alternatives for logistic regression in
> cross-sectional studies: an empirical comparison of models that directly
> estimate the prevalence ratio. *BMC Medical Research Methodology*, v. 3,
> n. 1, p. 21, 20 dez. 2003.
>
>
>
> FRANCISCO, P. M. S. B. et al. Medidas de associação em estudo transversal
> com delineamento complexo: razão de chances e razão de prevalência. *Revista
> Brasileira de Epidemiologia*, v. 11, n. 3, p. 347–355, set. 2008.
>
>
>
> WILLIAMSON, T.; ELIASZIW, M.; FICK, G. H. Log-binomial models: exploring
> failed convergence. *Emerging themes in epidemiology*, v. 10, n. 1, p.
> 14, 13 dez. 2013.
>
>
>
> Abraços fraternos,
>
>
>
> Marcos
>
>
>
> Em 7 de fevereiro de 2017 22:22, Leonard Assis via R-br <
> r-br em listas.c3sl.ufpr.br> escreveu:
>
> Tem ruído aí nesta explicação. Na verdade, o que o "epidemiologista"
> alegou, não me convenceu.
>
>
>
>
>
> Em 7 de fev de 2017 9:14 PM, "Marcos Bissoli via R-br" <
> r-br em listas.c3sl.ufpr.br> escreveu:
>
> Prezados,
>
>
>
> De antemão peço desculpas se desvio o tópico da lista. Mas creio que o
> tema da mensagem é minimamente transversal aos aqui tratados.
>
>
>
> Tenho uma variável resposta binária. Como a frequência da resposta é alta
> (38,11%), teóricos da Estatística aplicada à Epidemiologia sugerem que não
> seja usada uma regressão logística. Neste caso (de alta prevalência do
> desfecho), a primeira opção deveria ser uma log-binomial. Mas (e isso não é
> raro de ocorrer), minha log-binomial não apresentou convergência.
>
>
>
> Quando não há convergência, os teóricos sugerem uma regressão de Poisson
> com variância robusta. Entretanto, como meus dados sugerem subdispersão,
> optei por um modelo de quasi-poisson. Isso já deu certo em outras análises
> que fiz para terceiros. Inclusive, tenho conseguido adaptar a variância
> robusta ao modelo de quasi-poisson. Mas justamente agora, com os dados de
> minha tese...
>
>
>
> O diagnóstico visual está, ao meu ver, péssimo, para ajuste. A imagem
> anexa é do modelo de quasi-poisson. Mas experimentei todos os acima citados
> (logística e Poisson) e o gráfico não diferiu muito.
>
>
>
> [image: Imagem inline 1]
>
>
>
> A dúvida é... Há alguma outra alternativa de técnica de regressão que eu
> poderia tentar? Minhas variáveis explicativas são diversas, em quantidade e
> tipo (há contínuas, ordinais e binárias). Ou será (embora eu ache pouco
> provável) que este gráfico não significa um grande incômodo?
>
>
>
> Fiz o teste de qui-quadrado da deviance residual e estranhamente o valor p
> está resultando em 1, tanto para Poisson quanto para quasi-Poisson. Um
> outro fato estranho é o pseudo R² de Nagelkerke ter acusado 20%: todas as
> outras minhas variáveis resposta não passaram de 12%. Não sei se é correto
> (consultei bibliografia que sugeria isso para a regressão logística), mas
> apliquei um teste de Hosmer e Lemeshow e ele acusou um bom ajuste do
> modelo, também (p = 0,2718). Até uma curva de ROC eu fiz e a área está
> grande no gráfico (mais uma técnica que não sei se deve ser aplicada além
> da regressão logística,).
>
>
>
> Seguem alguns resultados, caso possa ajudar em algo.
>
>
>
> Desde já agradeço qualquer comentário. E reforço minhas desculpas caso eu
> tenha desviado do tópico além do esperado, e desde já acato qualquer
> negativa em prosseguir o debate. Nesse caso, se possível, aceitaria
> sugestões de boas listas para debates nesse nível onde eu pudesse me
> inscrever.
>
>
>
> Há braços,
>
>
>
> Marcos Bissoli
>
> Faculdade de Nutrição
>
> Unifal-MG
>
>
>
> > Mod1 <- glm(Tabagismo~.,data = TabModelagem,family = quasipoisson)
>
> > summary(Mod1)
>
>
>
> Call:
>
> glm(formula = Tabagismo ~ ., family = quasipoisson, data = TabModelagem)
>
>
>
> Deviance Residuals:
>
> Min 1Q Median 3Q Max
>
> -1.4867 -0.7821 -0.5889 0.5349 1.6624
>
>
>
> Coefficients:
>
> Estimate Std. Error t value Pr(>|t|)
>
> (Intercept) -1.245e+00 8.738e-01 -1.424 0.154644
>
> factor.SexoDic.1 5.800e-01 8.273e-02 7.011 4.11e-12 ***
>
> factor.Branca.1 -8.332e-01 7.836e-01 -1.063 0.287863
>
> factor.Negra.1 -8.210e-01 7.987e-01 -1.028 0.304185
>
> factor.Parda.1 -9.009e-01 7.863e-01 -1.146 0.252163
>
> factor.Amarela.1 -1.089e+00 8.481e-01 -1.284 0.199466
>
> factor.SemReligiao.1 -9.670e-02 1.888e-01 -0.512 0.608566
>
> factor.Catolica.1 -4.813e-01 1.862e-01 -2.585 0.009863 **
>
> factor.Espirita.1 -1.235e-01 2.181e-01 -0.566 0.571230
>
> factor.Evangelica.1 -9.177e-01 2.429e-01 -3.779 0.000166 ***
>
> factor.AfroBrasileira.1 6.068e-01 4.303e-01 1.410 0.158794
>
> factor.Turno.1 1.534e-03 1.034e-01 0.015 0.988169
>
> factor.Aposentado.1 -4.516e-02 1.055e-01 -0.428 0.668597
>
> factor.OcupaEstDiApenasDesemp.1 7.249e-02 1.411e-01 0.514 0.607474
>
> factor.ComFamilia.1 -4.323e-01 2.128e-01 -2.031 0.042444 *
>
> factor.ComOutParentes.1 -5.029e-01 3.517e-01 -1.430 0.153011
>
> factor.Republica.1 8.985e-03 1.959e-01 0.046 0.963429
>
> factor.Sozinho.1 -2.475e-01 2.236e-01 -1.107 0.268673
>
> factor.Pensao.1 -8.439e-01 4.000e-01 -2.110 0.035106 *
>
> factor.OutroMoradia.1 -5.262e-01 3.353e-01 -1.569 0.116880
>
> factor.RU.1 -1.937e-01 1.059e-01 -1.830 0.067589 .
>
> factor.praec4.1 -1.583e-01 2.666e-01 -0.594 0.552951
>
> IdadeA 3.787e-02 9.381e-03 4.037 5.79e-05 ***
>
> escola 8.576e-02 3.441e-02 2.492 0.012836 *
>
> RendaPC 4.045e-05 1.313e-05 3.080 0.002119 **
>
> Dist 2.605e-05 1.296e-04 0.201 0.840689
>
> PraecSoma 2.419e-02 3.086e-02 0.784 0.433427
>
> ---
>
> Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
>
>
>
> (Dispersion parameter for quasipoisson family taken to be 0.6036898)
>
>
>
> Null deviance: 834.67 on 1135 degrees of freedom
>
> Residual deviance: 706.16 on 1109 degrees of freedom
>
> AIC: NA
>
>
>
> Number of Fisher Scoring iterations: 5
>
>
>
>
>
>
>
> --
>
> MARCOS BISSOLI
>
> Faculdade de Nutrição
> Universidade Federal de Alfenas
>
> Blog: bocademiamaldita.blogspot.com/
>
> E-mail: mbissoli em gmail.com
> Twitter: #mbissoli
>
>
> Alfenas, Minas Gerais, Brasil
>
>
> *****Pense na Natureza antes de Imprimir*****
> Divulgue ON-LINE
>
> Eu apoio a ENEN "na luta por um Brasil sem fome"
>
> "por ĉiu popolo ties propran lingvon, por ĉiuj popoloj la esperantan"
> (para cada povo sua própria língua, para todos os povos o Esperanto)
>
>
>
> E nunca votarei no PSDB/DEM!
>
>
>
> _______________________________________________
> R-br mailing list
> R-br em listas.c3sl.ufpr.br
> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
> código mínimo reproduzível.
>
>
> _______________________________________________
> R-br mailing list
> R-br em listas.c3sl.ufpr.br
> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
> código mínimo reproduzível.
>
>
>
>
>
> --
>
> MARCOS BISSOLI
>
> Faculdade de Nutrição
> Universidade Federal de Alfenas
>
> Blog: bocademiamaldita.blogspot.com/
>
> E-mail: mbissoli em gmail.com
> Twitter: #mbissoli
>
>
> Alfenas, Minas Gerais, Brasil
>
>
> *****Pense na Natureza antes de Imprimir*****
> Divulgue ON-LINE
>
> Eu apoio a ENEN "na luta por um Brasil sem fome"
>
> "por ĉiu popolo ties propran lingvon, por ĉiuj popoloj la esperantan"
> (para cada povo sua própria língua, para todos os povos o Esperanto)
>
>
>
> E nunca votarei no PSDB/DEM!
>
>
>
>
>
> --
>
> MARCOS BISSOLI
>
> Faculdade de Nutrição
> Universidade Federal de Alfenas
>
> Blog: bocademiamaldita.blogspot.com/
>
> E-mail: mbissoli em gmail.com
> Twitter: #mbissoli
>
>
> Alfenas, Minas Gerais, Brasil
>
>
> *****Pense na Natureza antes de Imprimir*****
> Divulgue ON-LINE
>
> Eu apoio a ENEN "na luta por um Brasil sem fome"
>
> "por ĉiu popolo ties propran lingvon, por ĉiuj popoloj la esperantan"
> (para cada povo sua própria língua, para todos os povos o Esperanto)
>
>
>
> E nunca votarei no PSDB/DEM!
>
>
>
>
>
> --
>
> MARCOS BISSOLI
>
> Faculdade de Nutrição
> Universidade Federal de Alfenas
>
> Blog: bocademiamaldita.blogspot.com/
>
> E-mail: mbissoli em gmail.com
> Twitter: #mbissoli
>
>
> Alfenas, Minas Gerais, Brasil
>
>
> *****Pense na Natureza antes de Imprimir*****
> Divulgue ON-LINE
>
> Eu apoio a ENEN "na luta por um Brasil sem fome"
>
> "por ĉiu popolo ties propran lingvon, por ĉiuj popoloj la esperantan"
> (para cada povo sua própria língua, para todos os povos o Esperanto)
>
>
>
> E nunca votarei no PSDB/DEM!
>
>
>
>
>
> --
>
> MARCOS BISSOLI
>
> Faculdade de Nutrição
> Universidade Federal de Alfenas
>
> Blog: bocademiamaldita.blogspot.com/
>
> E-mail: mbissoli em gmail.com
> Twitter: #mbissoli
>
>
> Alfenas, Minas Gerais, Brasil
>
>
> *****Pense na Natureza antes de Imprimir*****
> Divulgue ON-LINE
>
> Eu apoio a ENEN "na luta por um Brasil sem fome"
>
> "por ĉiu popolo ties propran lingvon, por ĉiuj popoloj la esperantan"
> (para cada povo sua própria língua, para todos os povos o Esperanto)
>
>
>
> E nunca votarei no PSDB/DEM!
>
> _______________________________________________
> R-br mailing list
> R-br em listas.c3sl.ufpr.br
> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
> código mínimo reproduzível.
>
--
*Vinicius Brito Rocha.*
*Estatístico e Atuário *
*M.Sc. Engenharia de Produção/PO*
*Ph.D. Estudante Sistemas Computacionais*
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20170511/328db9b7/attachment-0001.html>
-------------- Próxima Parte ----------
Um anexo não-texto foi limpo...
Nome: image004.png
Tipo: image/png
Tamanho: 25239 bytes
Descrição: não disponível
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20170511/328db9b7/attachment-0002.png>
-------------- Próxima Parte ----------
Um anexo não-texto foi limpo...
Nome: image003.png
Tipo: image/png
Tamanho: 46858 bytes
Descrição: não disponível
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20170511/328db9b7/attachment-0003.png>
Mais detalhes sobre a lista de discussão R-br