[R-br] RES: Fwd: Distribuição para regressão de resposta binária
Leonard Assis
assis.leonard em gmail.com
Sexta Maio 12 06:26:43 BRT 2017
Tem que ver em detalhes a origem dos dados. Se for um experimento
planejado, não se pode brincar muito com o modelo e, claramente, as
proporções foram pensadas não para refletir a população, sim para facilitar
identificação ou não de algum fenômeno dado variáveis com níveis fixos.
Em 11 de mai de 2017 5:29 PM, "Vinicius Brito Rocha" <
viniciusbritor em gmail.com> escreveu:
> Marcos,
>
> Se me permite uma sugestão:
>
> Quando vc diz:
>
> "Tenho uma variável resposta binária. Como a frequência da resposta é alta
> (38,11%), teóricos da Estatística aplicada à Epidemiologia sugerem que não
> seja usada uma regressão logística"
>
> Este problema é facilmente resolvido um processo de reamostragem para
> balancear as classes. vc pode então usar o um regressão logistica, ou
> qualquer outro método de classificação supervionada para resolver seu
> problema.
>
> E como foi falado, usar uma matriz de confusão para checar sua taxa de
> acerto.
>
>
> Abs
>
> Vinicius
>
>
> Em 9 de fevereiro de 2017 10:18, Leonard Mendonça de Assis via R-br <
> r-br em listas.c3sl.ufpr.br> escreveu:
>
>> Marcos,
>>
>>
>>
>> Não vou discutir escolhas de Factor e etc pois não é o assunto. Sugiro
>> que revise o assunto.
>>
>>
>>
>>
>>
>> O erro no primeiro ajuste(binomial(link=log) é que o modelo não está
>> conseguindo convergir.
>>
>> O modelo Poisson, (Poisson, quase Poisson, binomial negativo, etc) não
>> faz sentido em seus dados, vide o que expliquei nos e-mails anteriores.
>>
>>
>>
>> O que você pode fazer?
>>
>>
>>
>> Você tem dúzias de artigos comentando que o melhor seria
>> binomial(link=log), mas você tem problemas de convergência neste caso. Como
>> você já tem uma estimativa dos parâmetros com link logit, utilize estes
>> coeficientes como chute inicial do modelo.
>>
>>
>>
>> Não gosto destes testes gráficos de ajuste, prefiro olhar
>> cross-validation, roc curve ou algo assim.
>>
>>
>>
>> Leonard
>>
>>
>>
>> *De:* R-br [mailto:r-br-bounces em listas.c3sl.ufpr.br] *Em nome de *Marcos
>> Bissoli via R-br
>> *Enviada em:* quinta-feira, 9 de fevereiro de 2017 10:35
>> *Para:* a lista Brasileira oficial de discussão do programa R. <
>> r-br em listas.c3sl.ufpr.br>
>> *Assunto:* [R-br] Fwd: Distribuição para regressão de resposta binária
>>
>>
>>
>>
>>
>> ---------- Mensagem encaminhada ----------
>> De: *Marcos Bissoli* <mbissoli em gmail.com>
>> Data: 9 de fevereiro de 2017 09:38
>> Assunto: Re: [R-br] Distribuição para regressão de resposta binária
>> Para: Leonard Mendonça de Assis <assis.leonard em gmail.com>
>>
>> Bom dia,
>>
>>
>>
>> Mais uma vez, muito obrigado pela oportunidade de diálogo.
>>
>>
>>
>> Seguem códigos aplicados ao meu banco de dados. Modelei com diversas
>> técnicas. Perceba que os gráficos de diagnóstico não diferem muito entre
>> si, nestas que estou testando. E a dúvida, talvez, central, seja essa:
>> esses gráficos são, de fato, tão relevantes? Pois, como eu disse, alguns
>> testes de ajuste que fiz deram resultados satisfatórios. Até que ponto esse
>> diagnóstico visual de ajuste é um problema? Percebam, também, que não há
>> grandes diferenças inclusive com o gráfico da regressão logística. Meu
>> problema com a logística, repito, é que ela me retorna odds ratios, e essa
>> medida não tem sido bem aceita entre epidemiologistas. Por isso eu prefiro
>> famílias com função de ligação "log", pois assim eu consigo facilmente as
>> razões de prevalência.
>>
>>
>>
>> Percebam, ainda, que a log binomial retorna erro e não gera um objeto. Há
>> algum ajuste a mais que eu possa fazer no código para ela funcionar? Na
>> literatura que consultei, quando isso ocorre, a sugestão é que se use a
>> Poisson com variância robusta. Percebam, também, que os coeficientes
>> significantes não mudam de modelo para modelo, à exceção da Quasi-Poisson
>> que é mais "sensível" (estou usando um termo epidemiológico aqui) para
>> detectar fatores potencialmente causais.
>>
>>
>>
>> Tabagismo é a variável binária de resposta: 1 para fumantes, 0 para não
>> fumantes. As demais marcadas com "factor" são também binárias. As sem
>> "factor" são contínuas ou discretas.
>>
>>
>>
>> > TabModelagem <- data.frame(Tabagismo,factor(SexoDic),factor(Branca),factor(Negra),factor(Parda),
>>
>> + factor(Amarela),factor(SemReligiao),factor(Catolica),
>>
>> + factor(Espirita),factor(Evangelica),factor(AfroBrasileira),
>>
>> + factor(Turno),factor(Aposentado),factor(OcupaEstDiApenasDesemp),
>>
>> + factor(ComFamilia),factor(ComOutParentes),factor(Republica),
>>
>> + factor(Sozinho),factor(Pensao),factor(OutroMoradia),factor(RU),
>>
>> + factor(praec4),IdadeA,escola,RendaPC,Dist,PraecSoma)
>>
>> > ModeloLogBinomial <- glm(Tabagismo~.,data = TabModelagem,family = binomial(link = log))
>>
>> Erro: nenhum jogo válido de coeficientes tem sido encontrado: por favor, fornece valores iniciais
>>
>> > ModeloLogistico <- glm(Tabagismo~.,data = TabModelagem,family = binomial(link = logit))
>>
>> > summary(ModeloLogistico)
>>
>>
>>
>> Call:
>>
>> glm(formula = Tabagismo ~ ., family = binomial(link = logit),
>>
>> data = TabModelagem)
>>
>>
>>
>> Deviance Residuals:
>>
>> Min 1Q Median 3Q Max
>>
>> -2.0034 -0.8824 -0.5459 1.0052 2.3721
>>
>>
>>
>> Coefficients:
>>
>> Estimate Std. Error z value Pr(>|z|)
>>
>> (Intercept) 1.215e+01 8.827e+02 0.014 0.989021
>>
>> factor.SexoDic.1 1.042e+00 1.430e-01 7.281 3.31e-13 ***
>>
>> factor.Branca.1 -1.481e+01 8.827e+02 -0.017 0.986618
>>
>> factor.Negra.1 -1.474e+01 8.827e+02 -0.017 0.986677
>>
>> factor.Parda.1 -1.487e+01 8.827e+02 -0.017 0.986563
>>
>> factor.Amarela.1 -1.545e+01 8.827e+02 -0.018 0.986037
>>
>> factor.SemReligiao.1 -1.956e-01 4.151e-01 -0.471 0.637543
>>
>> factor.Catolica.1 -1.009e+00 4.026e-01 -2.506 0.012225 *
>>
>> factor.Espirita.1 -3.190e-01 4.624e-01 -0.690 0.490209
>>
>> factor.Evangelica.1 -1.759e+00 4.694e-01 -3.747 0.000179 ***
>>
>> factor.AfroBrasileira.1 1.438e+01 4.219e+02 0.034 0.972808
>>
>> factor.Turno.1 3.093e-02 1.920e-01 0.161 0.872056
>>
>> factor.Aposentado.1 -9.971e-02 1.901e-01 -0.524 0.600027
>>
>> factor.OcupaEstDiApenasDesemp.1 1.799e-01 2.670e-01 0.674 0.500536
>>
>> factor.ComFamilia.1 -6.624e-01 4.098e-01 -1.616 0.106055
>>
>> factor.ComOutParentes.1 -7.401e-01 5.805e-01 -1.275 0.202332
>>
>> factor.Republica.1 6.300e-02 3.837e-01 0.164 0.869588
>>
>> factor.Sozinho.1 -5.343e-01 4.299e-01 -1.243 0.213914
>>
>> factor.Pensao.1 -1.324e+00 6.812e-01 -1.944 0.051938 .
>>
>> factor.OutroMoradia.1 -9.557e-01 5.861e-01 -1.631 0.102934
>>
>> factor.RU.1 -3.592e-01 1.911e-01 -1.880 0.060152 .
>>
>> factor.praec4.1 -2.845e-01 4.985e-01 -0.571 0.568191
>>
>> IdadeA 7.917e-02 2.043e-02 3.875 0.000107 ***
>>
>> escola 1.200e-01 6.289e-02 1.909 0.056297 .
>>
>> RendaPC 1.699e-04 4.093e-05 4.151 3.31e-05 ***
>>
>> Dist 1.634e-04 2.525e-04 0.647 0.517573
>>
>> PraecSoma 5.281e-02 5.452e-02 0.969 0.332692
>>
>> ---
>>
>> Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
>>
>>
>>
>> (Dispersion parameter for binomial family taken to be 1)
>>
>>
>>
>> Null deviance: 1516.6 on 1135 degrees of freedom
>>
>> Residual deviance: 1279.3 on 1109 degrees of freedom
>>
>> (587 observations deleted due to missingness)
>>
>> AIC: 1333.3
>>
>>
>>
>> Number of Fisher Scoring iterations: 13
>>
>>
>>
>> > ModeloPoisson <- glm(Tabagismo~.,data = TabModelagem,family = poisson(link = log))
>>
>> > summary(ModeloPoisson)
>>
>>
>>
>> Call:
>>
>> glm(formula = Tabagismo ~ ., family = poisson(link = log), data = TabModelagem)
>>
>>
>>
>> Deviance Residuals:
>>
>> Min 1Q Median 3Q Max
>>
>> -1.4867 -0.7821 -0.5889 0.5349 1.6624
>>
>>
>>
>> Coefficients:
>>
>> Estimate Std. Error z value Pr(>|z|)
>>
>> (Intercept) -1.245e+00 1.125e+00 -1.107 0.26845
>>
>> factor.SexoDic.1 5.800e-01 1.065e-01 5.447 5.11e-08 ***
>>
>> factor.Branca.1 -8.332e-01 1.009e+00 -0.826 0.40870
>>
>> factor.Negra.1 -8.210e-01 1.028e+00 -0.799 0.42446
>>
>> factor.Parda.1 -9.009e-01 1.012e+00 -0.890 0.37337
>>
>> factor.Amarela.1 -1.089e+00 1.092e+00 -0.998 0.31852
>>
>> factor.SemReligiao.1 -9.670e-02 2.430e-01 -0.398 0.69062
>>
>> factor.Catolica.1 -4.813e-01 2.396e-01 -2.009 0.04459 *
>>
>> factor.Espirita.1 -1.235e-01 2.806e-01 -0.440 0.65987
>>
>> factor.Evangelica.1 -9.177e-01 3.126e-01 -2.936 0.00332 **
>>
>> factor.AfroBrasileira.1 6.068e-01 5.538e-01 1.096 0.27325
>>
>> factor.Turno.1 1.534e-03 1.331e-01 0.012 0.99081
>>
>> factor.Aposentado.1 -4.516e-02 1.357e-01 -0.333 0.73937
>>
>> factor.OcupaEstDiApenasDesemp.1 7.249e-02 1.816e-01 0.399 0.68972
>>
>> factor.ComFamilia.1 -4.323e-01 2.739e-01 -1.578 0.11447
>>
>> factor.ComOutParentes.1 -5.029e-01 4.527e-01 -1.111 0.26655
>>
>> factor.Republica.1 8.985e-03 2.522e-01 0.036 0.97157
>>
>> factor.Sozinho.1 -2.475e-01 2.878e-01 -0.860 0.38987
>>
>> factor.Pensao.1 -8.439e-01 5.148e-01 -1.639 0.10117
>>
>> factor.OutroMoradia.1 -5.262e-01 4.316e-01 -1.219 0.22275
>>
>> factor.RU.1 -1.937e-01 1.363e-01 -1.421 0.15517
>>
>> factor.praec4.1 -1.583e-01 3.432e-01 -0.461 0.64469
>>
>> IdadeA 3.787e-02 1.207e-02 3.136 0.00171 **
>>
>> escola 8.576e-02 4.429e-02 1.936 0.05281 .
>>
>> RendaPC 4.045e-05 1.690e-05 2.393 0.01670 *
>>
>> Dist 2.605e-05 1.668e-04 0.156 0.87586
>>
>> PraecSoma 2.419e-02 3.972e-02 0.609 0.54262
>>
>> ---
>>
>> Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
>>
>>
>>
>> (Dispersion parameter for poisson family taken to be 1)
>>
>>
>>
>> Null deviance: 834.67 on 1135 degrees of freedom
>>
>> Residual deviance: 706.16 on 1109 degrees of freedom
>>
>> (587 observations deleted due to missingness)
>>
>> AIC: 1640.2
>>
>>
>>
>> Number of Fisher Scoring iterations: 5
>>
>>
>>
>> > ModeloQuasiPoisson <- glm(Tabagismo~.,data = TabModelagem,family = quasipoisson(link = log))
>>
>> > summary(ModeloQuasiPoisson)
>>
>>
>>
>> Call:
>>
>> glm(formula = Tabagismo ~ ., family = quasipoisson(link = log),
>>
>> data = TabModelagem)
>>
>>
>>
>> Deviance Residuals:
>>
>> Min 1Q Median 3Q Max
>>
>> -1.4867 -0.7821 -0.5889 0.5349 1.6624
>>
>>
>>
>> Coefficients:
>>
>> Estimate Std. Error t value Pr(>|t|)
>>
>> (Intercept) -1.245e+00 8.738e-01 -1.424 0.154644
>>
>> factor.SexoDic.1 5.800e-01 8.273e-02 7.011 4.11e-12 ***
>>
>> factor.Branca.1 -8.332e-01 7.836e-01 -1.063 0.287863
>>
>> factor.Negra.1 -8.210e-01 7.987e-01 -1.028 0.304185
>>
>> factor.Parda.1 -9.009e-01 7.863e-01 -1.146 0.252163
>>
>> factor.Amarela.1 -1.089e+00 8.481e-01 -1.284 0.199466
>>
>> factor.SemReligiao.1 -9.670e-02 1.888e-01 -0.512 0.608566
>>
>> factor.Catolica.1 -4.813e-01 1.862e-01 -2.585 0.009863 **
>>
>> factor.Espirita.1 -1.235e-01 2.181e-01 -0.566 0.571230
>>
>> factor.Evangelica.1 -9.177e-01 2.429e-01 -3.779 0.000166 ***
>>
>> factor.AfroBrasileira.1 6.068e-01 4.303e-01 1.410 0.158794
>>
>> factor.Turno.1 1.534e-03 1.034e-01 0.015 0.988169
>>
>> factor.Aposentado.1 -4.516e-02 1.055e-01 -0.428 0.668597
>>
>> factor.OcupaEstDiApenasDesemp.1 7.249e-02 1.411e-01 0.514 0.607474
>>
>> factor.ComFamilia.1 -4.323e-01 2.128e-01 -2.031 0.042444 *
>>
>> factor.ComOutParentes.1 -5.029e-01 3.517e-01 -1.430 0.153011
>>
>> factor.Republica.1 8.985e-03 1.959e-01 0.046 0.963429
>>
>> factor.Sozinho.1 -2.475e-01 2.236e-01 -1.107 0.268673
>>
>> factor.Pensao.1 -8.439e-01 4.000e-01 -2.110 0.035106 *
>>
>> factor.OutroMoradia.1 -5.262e-01 3.353e-01 -1.569 0.116880
>>
>> factor.RU.1 -1.937e-01 1.059e-01 -1.830 0.067589 .
>>
>> factor.praec4.1 -1.583e-01 2.666e-01 -0.594 0.552951
>>
>> IdadeA 3.787e-02 9.381e-03 4.037 5.79e-05 ***
>>
>> escola 8.576e-02 3.441e-02 2.492 0.012836 *
>>
>> RendaPC 4.045e-05 1.313e-05 3.080 0.002119 **
>>
>> Dist 2.605e-05 1.296e-04 0.201 0.840689
>>
>> PraecSoma 2.419e-02 3.086e-02 0.784 0.433427
>>
>> ---
>>
>> Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
>>
>>
>>
>> (Dispersion parameter for quasipoisson family taken to be 0.6036898)
>>
>>
>>
>> Null deviance: 834.67 on 1135 degrees of freedom
>>
>> Residual deviance: 706.16 on 1109 degrees of freedom
>>
>> (587 observations deleted due to missingness)
>>
>> AIC: NA
>>
>>
>>
>> Number of Fisher Scoring iterations: 5
>>
>>
>>
>> > library(MASS)
>>
>> > ModeloBinomialNegativa <- glm.nb(Tabagismo~.,data = TabModelagem,link = log)
>>
>> Warning messages:
>>
>> 1: In theta.ml(Y, mu, sum(w), w, limit = control$maxit, trace = control$trace > :
>>
>> iteration limit reached
>>
>> 2: In theta.ml(Y, mu, sum(w), w, limit = control$maxit, trace = control$trace > :
>>
>> iteration limit reached
>>
>> > summary(ModeloBinomialNegativa)
>>
>>
>>
>> Call:
>>
>> glm.nb(formula = Tabagismo ~ ., data = TabModelagem, link = log,
>>
>> init.theta = 9955.862378)
>>
>>
>>
>> Deviance Residuals:
>>
>> Min 1Q Median 3Q Max
>>
>> -1.4866 -0.7821 -0.5889 0.5349 1.6624
>>
>>
>>
>> Coefficients:
>>
>> Estimate Std. Error z value Pr(>|z|)
>>
>> (Intercept) -1.245e+00 1.125e+00 -1.107 0.26847
>>
>> factor.SexoDic.1 5.800e-01 1.065e-01 5.447 5.12e-08 ***
>>
>> factor.Branca.1 -8.332e-01 1.009e+00 -0.826 0.40872
>>
>> factor.Negra.1 -8.210e-01 1.028e+00 -0.799 0.42448
>>
>> factor.Parda.1 -9.009e-01 1.012e+00 -0.890 0.37339
>>
>> factor.Amarela.1 -1.089e+00 1.092e+00 -0.997 0.31853
>>
>> factor.SemReligiao.1 -9.670e-02 2.430e-01 -0.398 0.69063
>>
>> factor.Catolica.1 -4.813e-01 2.396e-01 -2.008 0.04459 *
>>
>> factor.Espirita.1 -1.235e-01 2.807e-01 -0.440 0.65989
>>
>> factor.Evangelica.1 -9.177e-01 3.126e-01 -2.936 0.00333 **
>>
>> factor.AfroBrasileira.1 6.068e-01 5.539e-01 1.096 0.27327
>>
>> factor.Turno.1 1.530e-03 1.331e-01 0.011 0.99083
>>
>> factor.Aposentado.1 -4.516e-02 1.358e-01 -0.333 0.73937
>>
>> factor.OcupaEstDiApenasDesemp.1 7.249e-02 1.816e-01 0.399 0.68973
>>
>> factor.ComFamilia.1 -4.323e-01 2.739e-01 -1.578 0.11449
>>
>> factor.ComOutParentes.1 -5.029e-01 4.527e-01 -1.111 0.26658
>>
>> factor.Republica.1 8.986e-03 2.522e-01 0.036 0.97157
>>
>> factor.Sozinho.1 -2.475e-01 2.878e-01 -0.860 0.38988
>>
>> factor.Pensao.1 -8.439e-01 5.149e-01 -1.639 0.10120
>>
>> factor.OutroMoradia.1 -5.262e-01 4.316e-01 -1.219 0.22277
>>
>> factor.RU.1 -1.937e-01 1.363e-01 -1.421 0.15519
>>
>> factor.praec4.1 -1.583e-01 3.432e-01 -0.461 0.64469
>>
>> IdadeA 3.787e-02 1.207e-02 3.136 0.00171 **
>>
>> escola 8.576e-02 4.429e-02 1.936 0.05282 .
>>
>> RendaPC 4.045e-05 1.690e-05 2.393 0.01670 *
>>
>> Dist 2.605e-05 1.668e-04 0.156 0.87585
>>
>> PraecSoma 2.419e-02 3.972e-02 0.609 0.54264
>>
>> ---
>>
>> Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
>>
>>
>>
>> (Dispersion parameter for Negative Binomial(9955.862) family taken to be 1)
>>
>>
>>
>> Null deviance: 834.65 on 1135 degrees of freedom
>>
>> Residual deviance: 706.13 on 1109 degrees of freedom
>>
>> (587 observations deleted due to missingness)
>>
>> AIC: 1642.2
>>
>>
>>
>> Number of Fisher Scoring iterations: 1
>>
>>
>>
>>
>>
>> Theta: 9956
>>
>> Std. Err.: 36769
>>
>> Warning while fitting theta: iteration limit reached
>>
>>
>>
>> 2 x log-likelihood: -1586.177
>>
>> > par(mfrow=c(2,2))
>>
>> > qqnorm(resid(ModeloLogistico, type = "deviance"),
>>
>> + pch = 20, main = "Logística", las = 1)
>>
>> > qqline(resid(ModeloLogistico, type = "deviance"))
>>
>> > qqnorm(resid(ModeloPoisson, type = "deviance"),
>>
>> + pch = 20, main = "Poisson", las = 1)
>>
>> > qqline(resid(ModeloPoisson, type = "deviance"))
>>
>> > qqnorm(resid(ModeloQuasiPoisson, type = "deviance"),
>>
>> + pch = 20, main = "Quasi-Poisson", las = 1)
>>
>> > qqline(resid(ModeloQuasiPoisson, type = "deviance"))
>>
>> > qqnorm(resid(ModeloBinomialNegativa, type = "deviance"),
>>
>> + pch = 20, main = "Binomial Negativa", las = 1)
>>
>> > qqline(resid(ModeloBinomialNegativa, type = "deviance"))
>>
>>
>>
>> [image: Imagem inline 1]
>>
>>
>>
>> Em 8 de fevereiro de 2017 20:35, Leonard Mendonça de Assis <
>> assis.leonard em gmail.com> escreveu:
>>
>> Exato,
>>
>>
>>
>> Existem várias funções de ligação pre definidas para cada família. Não
>> tenho certeza se ‘log’ é um link válido para binomial, nunca o usei com
>> binomial.
>>
>>
>>
>> Caso este link não exista, você terá que cria-lo antes, veja um exemplo
>> neste local: https://stat.ethz.ch/pipermail/r-help/2013-November/362787.
>> html
>>
>>
>>
>> Neste exemplo, é criado o link ‘clog’, muito próximo ao que você precisa.
>>
>>
>>
>> Mas o que você chama de ‘não consigo criar o modelo’? Eu já ajustei
>> modelo logístico com mais de 200 variáveis (Contínuas, discretas, fatores
>> ...) sem problemas, a não ser problemas de algumas variáveis serem
>> linearmente dependentes e, com isto, me gerou problemas de estimação. Outro
>> problema que tive (não o tenho a mais de ano) foi estourar memória do
>> computador.
>>
>>
>>
>> Mande pra mim o erro especifico que está dando ao executar o comando. Só
>> assim posso ser mais preciso em te ajudar
>>
>>
>>
>> *De:* Marcos Bissoli [mailto:mbissoli em gmail.com]
>> *Enviada em:* quarta-feira, 8 de fevereiro de 2017 19:35
>> *Para:* Leonard Mendonça de Assis <assis.leonard em gmail.com>
>>
>>
>> *Assunto:* Re: [R-br] Distribuição para regressão de resposta binária
>>
>>
>>
>> Prezado Leonard e amigos,
>>
>>
>>
>> Agradeço muito pelo debate. Venho tentando cada vez mais dialogar com
>> estatísticos, pois respeito muito o trabalho de vocês, embora admita ainda
>> ser "um menino" na arte.
>>
>>
>>
>> Em relação à função de ligação para logística, talvez eu não tenha sido
>> claro. Eu tentei uma função "ln(y)" que, ao menos no material que venho
>> consultando, seria uma regressão log-binomial. Este seria um modelo ideal,
>> e foi minha primeira tentativa. Ou seja, usei um código semelhante a:
>>
>>
>>
>> > Modelo -> glm(y~., data = Dados, family = binomial(link = "log"))
>>
>>
>>
>> O problema é que o R não consegue criar tal modelo. Tenho muitas
>> variáveis explicativas (isso é bastante comum em estudos epidemiológicos
>> descritivos), incluindo cinco contínuas, se é que esse seja o motivo. O
>> fato é que em uma das referências que citei em e-mail anterior, os autores
>> tratam deste problema. Veja os resultados apresentados no resumo de
>> Coutinho et al:
>>
>>
>>
>> "*RESULTADOS:* As estimativas por ponto e por intervalo [das razões de
>> prevalência] obtidas pelas regressões de Cox e Poisson foram semelhantes à
>> obtida pela estratificação de Mantel-Haenszel [considerada 'prova-ouro'
>> para a Epidemiologia], independentemente da prevalência do desfecho
>> [variável resposta] e das covariáveis [variáveis explicativas, pode-se
>> dizer; talvez, para que tem uma formação mais voltada para análises
>> experimentais, poderíamos dizer que covariáveis referem-se mais a 'blocos']
>> do modelo. *O modelo log-binomial apresentou dificuldade de convergência*
>> quando o desfecho tinha prevalência alta e havia covariável contínua no
>> modelo. A regressão logística [valendo-se de logito como função de ligação]
>> produziu estimativas por ponto e por intervalo maiores do que as obtidas
>> pelos outros métodos, principalmente para os desfechos com maiores
>> prevalências iniciais. *Se interpretados como estimativas de RP, os OR
>> superestimariam as associações* para os desfechos com prevalência
>> inicial baixa, intermediária e alta em 13%, quase 100% e quatro vezes mais,
>> respectivamente."
>>
>>
>>
>> [notas minhas] [grifos meus]
>>
>>
>>
>> Portanto, os autores indicam (e vi isso em outros artigos) regressão de
>> Poisson, mesmo admitindo a variável resposta como sendo binária, variando
>> de 0 a 1, que representa a probabilidade de ocorrência do desfecho
>> (doença). Quase todos são unânimes em recomendar apenas que se use ajuste
>> de variância robusta para sanar problemas nos intervalos de confiança dos
>> coeficientes. Em Epidemiologia, mais importante que os valores p são esses
>> intervalos de confiança, pois há muitos desdobramentos inferenciais que são
>> feitos a partir deles. Portanto, creio que a justificativa para adoção de
>> Poisson seja esta: a não convergência da log-binomial.
>>
>>
>>
>> Talvez uma outra função de ligação em família binomial possa ser uma
>> solução, então? Como disse, tentei "log" e o próprio "logit". "Log" não deu
>> convergência e o modelo nem foi gerado. O "logit" eu também tentei, e o
>> gráfico de resíduos do modelo foi praticamente idêntico a este de
>> quasi-poisson que postei na primeira mensagem. Seria grato caso pudesse me
>> indicar algum referencial sobre outras funções de ligação,
>> preferencialmente com aplicações. Mas acho que isso se tornará um problema,
>> pois os coeficientes gerados certamente me resultarão indicadores não
>> reconhecidos na área da Epidemiologia. Não sei até que ponto eu posso
>> "converter" coeficientes livremente aplicando pura e simplesmente
>> aritméticas a estes coeficientes. Como acho que já expliquei acima: "logit"
>> me devolve razão de chances (odds ratio, OR) e "log" me retorna a tão
>> desejada razão de prevalência (razão de riscos, RR). Se eu não tiver como
>> converter meus coeficientes em uma dessas razões (e preferencialmente a RR)
>> eu vou apanhar tanto da banca que vou sair dali roxo e sem título. :D
>>
>>
>>
>> (Um parênteses: essas questões, como a brincadeira acima, tem me motivado
>> muito a ingressar em um doutorado em Estatística assim que eu concluir
>> esse. Creio que há muito há se propor de novo para a Epidemiologia, a
>> partir de um conhecimento mais profundo em Estatística. A Epidemiologia é,
>> de fato, bastante limitada naquilo que ela "aceita" como técnica válida
>> para suas análises inferenciais)
>>
>>
>>
>> Quando o senhor diz:
>>
>>
>>
>> "Uma segunda forma de analisar, seria termos uma resposta composta de
>> número de ocorrências do evento em um total possível",
>>
>>
>>
>> eu posso interpretar que isso também seria adaptável a uma probabilidade?
>> Valeria a pena eu tentar ajuste com Gamma ou Beta? A binomial negativa eu
>> até tentei, mais por curiosidade, pois tenho seguido o material do curso
>> que fiz com o Walmes em Varginha e ele preconizou que ela seria recomendada
>> para casos de superdispersão, e minha variável resposta aparenta
>> subdispersão. Mas a binomial negativa também gerou o mesmo gráfico de
>> resíduos. Eu posso usar uma variável binária como resposta num modelo Gamma
>> ou Beta? Ou teria que dar algum "tratamento" na variável antes de aplicar
>> estes modelos. Confesso que estes ainda não tentei com essa resposta com a
>> qual estou enfrentando o problema. Em outras variáveis eu experimentei
>> modelos Gamma, mas eles não apresentaram melhor ajuste que o gaussiano, a
>> ponto de justificar eu enfrentar tamanha novidade com a banca de
>> epidemiologistas. :D
>>
>>
>>
>> Agradeço, já, e muito, o diálogo estabelecido.
>>
>>
>>
>> Abraços fraternos,
>>
>>
>>
>> Marcos
>>
>>
>>
>>
>>
>>
>>
>>
>>
>> Em 8 de fevereiro de 2017 17:28, Leonard Mendonça de Assis <
>> assis.leonard em gmail.com> escreveu:
>>
>> Marcos,
>>
>> Não tenho acesso aos artigos, mas ... baseado em 27 anos de experiência
>> ajustando regressão logística, vamos aos meus pitacos:
>>
>>
>>
>> 1. Quando eu tenho os Y em forma binária (Presente/ausente), isto,
>> estatisticamente falando, é uma distribuição de Bernoulli
>> 2. Esta distribuição de bernoulli tem como parâmetro, a proporção.
>> Esta proporção varia de 0 a 1.
>> 3. Uma forma de ajustar este tipo de dados é a regressão logística,
>> esta pode assumir vários tipos de ligação. Aqui, de cabeça, eu lembro uns
>> 5, mas deve ter muito mais.
>> 4. Estas funções de ligação se ajustam melhor a determinados tipos de
>> dados e algumas áreas de conhecimento às vezes preferem um em detrimento de
>> outros.
>>
>>
>>
>> Baseado neste cenário acima, acho “estranho” utilizar outro tipo de
>> modelo (com dados na característica acima), sem uma justificativa bastante
>> forte.
>>
>>
>>
>> Uma segunda forma de analisar, seria termos uma resposta composta de
>> número de ocorrências do evento em um total possível. Neste caso, teríamos
>> uma variedade de distribuições que provavelmente se encaixariam nos
>> documentos que você apresentou. Neste caso, o modelo seria ou binomial
>> negativa, ou Gama, ou Beta, ou qualquer outra similar.
>>
>>
>>
>> Ajustados os conceitos, vamos agora à minha opinião sobre seu problema.
>>
>>
>>
>> 1. Pelo que consegui entender de seu texto inicial e seu código
>> fornecido, você está ajustando algo que é 0 ou 1 como sendo uma
>> quase-poisson (esta é uma das opções de ajuste para o que expliquei acima,
>> onde existe uma determinada quantidade.
>> 2. Como seus dados são 0/1 (suposição esta que faço baseado em sua
>> explicação), o ajuste estar deficiente é algo bem esperado
>>
>> Seria bom se você informasse do que se trata a variável tabagismo, se ela
>> é 0/1 ou se é uma quantidade. Se for 0/1, certamente o problema dos dados é
>> esperado, por serem oriundos de uma distribuição diversa da que você está
>> ajustando.
>>
>>
>>
>> No aguardo
>>
>>
>>
>> Leonard
>>
>>
>>
>> *De:* Marcos Bissoli [mailto:mbissoli em gmail.com]
>> *Enviada em:* quarta-feira, 8 de fevereiro de 2017 14:57
>> *Para:* Leonard Assis <assis.leonard em gmail.com>; a lista Brasileira
>> oficial de discussão do programa R. <r-br em listas.c3sl.ufpr.br>
>> *Assunto:* Re: [R-br] Distribuição para regressão de resposta binária
>>
>>
>>
>> Olá Leonard,
>>
>>
>>
>> Muito obrigado pelo interesse no debate.
>>
>>
>>
>> Minha afirmação baseada em epidemiologistas é, na verdade, baseada numa
>> série de artigos que venho estudando recentemente. Seguem algumas
>> referências, dentre outras várias, sobre as quais venho me fundamentando.
>>
>>
>>
>> ZOU, G. A Modified Poisson Regression Approach to Prospective Studies
>> with Binary Data. *American Journal of Epidemiology*, v. 159, n. 7, p.
>> 702–706, 1 abr. 2004.
>>
>>
>>
>> COUTINHO, L. M. S.; SCAZUFCA, M.; MENEZES, P. R. Métodos para estimar
>> razão de prevalência em estudos de corte transversal. *Revista de Saúde
>> Pública*, v. 42, n. 6, p. 992–998, dez. 2008.
>>
>>
>>
>> BARROS, A. J.; HIRAKATA, V. N. Alternatives for logistic regression in
>> cross-sectional studies: an empirical comparison of models that directly
>> estimate the prevalence ratio. *BMC Medical Research Methodology*, v. 3,
>> n. 1, p. 21, 20 dez. 2003.
>>
>>
>>
>> FRANCISCO, P. M. S. B. et al. Medidas de associação em estudo transversal
>> com delineamento complexo: razão de chances e razão de prevalência. *Revista
>> Brasileira de Epidemiologia*, v. 11, n. 3, p. 347–355, set. 2008.
>>
>>
>>
>> WILLIAMSON, T.; ELIASZIW, M.; FICK, G. H. Log-binomial models: exploring
>> failed convergence. *Emerging themes in epidemiology*, v. 10, n. 1, p.
>> 14, 13 dez. 2013.
>>
>>
>>
>> Abraços fraternos,
>>
>>
>>
>> Marcos
>>
>>
>>
>> Em 7 de fevereiro de 2017 22:22, Leonard Assis via R-br <
>> r-br em listas.c3sl.ufpr.br> escreveu:
>>
>> Tem ruído aí nesta explicação. Na verdade, o que o "epidemiologista"
>> alegou, não me convenceu.
>>
>>
>>
>>
>>
>> Em 7 de fev de 2017 9:14 PM, "Marcos Bissoli via R-br" <
>> r-br em listas.c3sl.ufpr.br> escreveu:
>>
>> Prezados,
>>
>>
>>
>> De antemão peço desculpas se desvio o tópico da lista. Mas creio que o
>> tema da mensagem é minimamente transversal aos aqui tratados.
>>
>>
>>
>> Tenho uma variável resposta binária. Como a frequência da resposta é alta
>> (38,11%), teóricos da Estatística aplicada à Epidemiologia sugerem que não
>> seja usada uma regressão logística. Neste caso (de alta prevalência do
>> desfecho), a primeira opção deveria ser uma log-binomial. Mas (e isso não é
>> raro de ocorrer), minha log-binomial não apresentou convergência.
>>
>>
>>
>> Quando não há convergência, os teóricos sugerem uma regressão de Poisson
>> com variância robusta. Entretanto, como meus dados sugerem subdispersão,
>> optei por um modelo de quasi-poisson. Isso já deu certo em outras análises
>> que fiz para terceiros. Inclusive, tenho conseguido adaptar a variância
>> robusta ao modelo de quasi-poisson. Mas justamente agora, com os dados de
>> minha tese...
>>
>>
>>
>> O diagnóstico visual está, ao meu ver, péssimo, para ajuste. A imagem
>> anexa é do modelo de quasi-poisson. Mas experimentei todos os acima citados
>> (logística e Poisson) e o gráfico não diferiu muito.
>>
>>
>>
>> [image: Imagem inline 1]
>>
>>
>>
>> A dúvida é... Há alguma outra alternativa de técnica de regressão que eu
>> poderia tentar? Minhas variáveis explicativas são diversas, em quantidade e
>> tipo (há contínuas, ordinais e binárias). Ou será (embora eu ache pouco
>> provável) que este gráfico não significa um grande incômodo?
>>
>>
>>
>> Fiz o teste de qui-quadrado da deviance residual e estranhamente o valor
>> p está resultando em 1, tanto para Poisson quanto para quasi-Poisson. Um
>> outro fato estranho é o pseudo R² de Nagelkerke ter acusado 20%: todas as
>> outras minhas variáveis resposta não passaram de 12%. Não sei se é correto
>> (consultei bibliografia que sugeria isso para a regressão logística), mas
>> apliquei um teste de Hosmer e Lemeshow e ele acusou um bom ajuste do
>> modelo, também (p = 0,2718). Até uma curva de ROC eu fiz e a área está
>> grande no gráfico (mais uma técnica que não sei se deve ser aplicada além
>> da regressão logística,).
>>
>>
>>
>> Seguem alguns resultados, caso possa ajudar em algo.
>>
>>
>>
>> Desde já agradeço qualquer comentário. E reforço minhas desculpas caso eu
>> tenha desviado do tópico além do esperado, e desde já acato qualquer
>> negativa em prosseguir o debate. Nesse caso, se possível, aceitaria
>> sugestões de boas listas para debates nesse nível onde eu pudesse me
>> inscrever.
>>
>>
>>
>> Há braços,
>>
>>
>>
>> Marcos Bissoli
>>
>> Faculdade de Nutrição
>>
>> Unifal-MG
>>
>>
>>
>> > Mod1 <- glm(Tabagismo~.,data = TabModelagem,family = quasipoisson)
>>
>> > summary(Mod1)
>>
>>
>>
>> Call:
>>
>> glm(formula = Tabagismo ~ ., family = quasipoisson, data = TabModelagem)
>>
>>
>>
>> Deviance Residuals:
>>
>> Min 1Q Median 3Q Max
>>
>> -1.4867 -0.7821 -0.5889 0.5349 1.6624
>>
>>
>>
>> Coefficients:
>>
>> Estimate Std. Error t value Pr(>|t|)
>>
>> (Intercept) -1.245e+00 8.738e-01 -1.424 0.154644
>>
>> factor.SexoDic.1 5.800e-01 8.273e-02 7.011 4.11e-12 ***
>>
>> factor.Branca.1 -8.332e-01 7.836e-01 -1.063 0.287863
>>
>> factor.Negra.1 -8.210e-01 7.987e-01 -1.028 0.304185
>>
>> factor.Parda.1 -9.009e-01 7.863e-01 -1.146 0.252163
>>
>> factor.Amarela.1 -1.089e+00 8.481e-01 -1.284 0.199466
>>
>> factor.SemReligiao.1 -9.670e-02 1.888e-01 -0.512 0.608566
>>
>> factor.Catolica.1 -4.813e-01 1.862e-01 -2.585 0.009863 **
>>
>> factor.Espirita.1 -1.235e-01 2.181e-01 -0.566 0.571230
>>
>> factor.Evangelica.1 -9.177e-01 2.429e-01 -3.779 0.000166 ***
>>
>> factor.AfroBrasileira.1 6.068e-01 4.303e-01 1.410 0.158794
>>
>> factor.Turno.1 1.534e-03 1.034e-01 0.015 0.988169
>>
>> factor.Aposentado.1 -4.516e-02 1.055e-01 -0.428 0.668597
>>
>> factor.OcupaEstDiApenasDesemp.1 7.249e-02 1.411e-01 0.514 0.607474
>>
>> factor.ComFamilia.1 -4.323e-01 2.128e-01 -2.031 0.042444 *
>>
>> factor.ComOutParentes.1 -5.029e-01 3.517e-01 -1.430 0.153011
>>
>> factor.Republica.1 8.985e-03 1.959e-01 0.046 0.963429
>>
>> factor.Sozinho.1 -2.475e-01 2.236e-01 -1.107 0.268673
>>
>> factor.Pensao.1 -8.439e-01 4.000e-01 -2.110 0.035106 *
>>
>> factor.OutroMoradia.1 -5.262e-01 3.353e-01 -1.569 0.116880
>>
>> factor.RU.1 -1.937e-01 1.059e-01 -1.830 0.067589 .
>>
>> factor.praec4.1 -1.583e-01 2.666e-01 -0.594 0.552951
>>
>> IdadeA 3.787e-02 9.381e-03 4.037 5.79e-05 ***
>>
>> escola 8.576e-02 3.441e-02 2.492 0.012836 *
>>
>> RendaPC 4.045e-05 1.313e-05 3.080 0.002119 **
>>
>> Dist 2.605e-05 1.296e-04 0.201 0.840689
>>
>> PraecSoma 2.419e-02 3.086e-02 0.784 0.433427
>>
>> ---
>>
>> Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
>>
>>
>>
>> (Dispersion parameter for quasipoisson family taken to be 0.6036898)
>>
>>
>>
>> Null deviance: 834.67 on 1135 degrees of freedom
>>
>> Residual deviance: 706.16 on 1109 degrees of freedom
>>
>> AIC: NA
>>
>>
>>
>> Number of Fisher Scoring iterations: 5
>>
>> ...
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20170512/3bb9d82c/attachment-0001.html>
-------------- Próxima Parte ----------
Um anexo não-texto foi limpo...
Nome: image004.png
Tipo: image/png
Tamanho: 25239 bytes
Descrição: não disponível
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20170512/3bb9d82c/attachment-0002.png>
-------------- Próxima Parte ----------
Um anexo não-texto foi limpo...
Nome: image003.png
Tipo: image/png
Tamanho: 46858 bytes
Descrição: não disponível
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20170512/3bb9d82c/attachment-0003.png>
Mais detalhes sobre a lista de discussão R-br