[R-br] Distribuição para regressão de resposta binária

Marcos Bissoli mbissoli em gmail.com
Terça Fevereiro 7 21:14:23 BRST 2017


Prezados,

De antemão peço desculpas se desvio o tópico da lista. Mas creio que o tema
da mensagem é minimamente transversal aos aqui tratados.

Tenho uma variável resposta binária. Como a frequência da resposta é alta
(38,11%), teóricos da Estatística aplicada à Epidemiologia sugerem que não
seja usada uma regressão logística. Neste caso (de alta prevalência do
desfecho), a primeira opção deveria ser uma log-binomial. Mas (e isso não é
raro de ocorrer), minha log-binomial não apresentou convergência.

Quando não há convergência, os teóricos sugerem uma regressão de Poisson
com variância robusta. Entretanto, como meus dados sugerem subdispersão,
optei por um modelo de quasi-poisson. Isso já deu certo em outras análises
que fiz para terceiros. Inclusive, tenho conseguido adaptar a variância
robusta ao modelo de quasi-poisson. Mas justamente agora, com os dados de
minha tese...

O diagnóstico visual está, ao meu ver, péssimo, para ajuste. A imagem anexa
é do modelo de quasi-poisson. Mas experimentei todos os acima citados
(logística e Poisson) e o gráfico não diferiu muito.

[image: Imagem inline 1]

A dúvida é... Há alguma outra alternativa de técnica de regressão que eu
poderia tentar? Minhas variáveis explicativas são diversas, em quantidade e
tipo (há contínuas, ordinais e binárias). Ou será (embora eu ache pouco
provável) que este gráfico não significa um grande incômodo?

Fiz o teste de qui-quadrado da deviance residual e estranhamente o valor p
está resultando em 1, tanto para Poisson quanto para quasi-Poisson. Um
outro fato estranho é o pseudo R² de Nagelkerke ter acusado 20%: todas as
outras minhas variáveis resposta não passaram de 12%. Não sei se é correto
(consultei bibliografia que sugeria isso para a regressão logística), mas
apliquei um teste de Hosmer e Lemeshow e ele acusou um bom ajuste do
modelo, também (p = 0,2718). Até uma curva de ROC eu fiz e a área está
grande no gráfico (mais uma técnica que não sei se deve ser aplicada além
da regressão logística,).

Seguem alguns resultados, caso possa ajudar em algo.

Desde já agradeço qualquer comentário. E reforço minhas desculpas caso eu
tenha desviado do tópico além do esperado, e desde já acato qualquer
negativa em prosseguir o debate. Nesse caso, se possível, aceitaria
sugestões de boas listas para debates nesse nível onde eu pudesse me
inscrever.

Há braços,

Marcos Bissoli
Faculdade de Nutrição
Unifal-MG

> Mod1 <- glm(Tabagismo~.,data = TabModelagem,family = quasipoisson)> summary(Mod1)
Call:
glm(formula = Tabagismo ~ ., family = quasipoisson, data = TabModelagem)

Deviance Residuals:
    Min       1Q   Median       3Q      Max
-1.4867  -0.7821  -0.5889   0.5349   1.6624

Coefficients:
                                  Estimate Std. Error t value Pr(>|t|)
(Intercept)                     -1.245e+00  8.738e-01  -1.424 0.154644
factor.SexoDic.1                 5.800e-01  8.273e-02   7.011 4.11e-12 ***
factor.Branca.1                 -8.332e-01  7.836e-01  -1.063 0.287863
factor.Negra.1                  -8.210e-01  7.987e-01  -1.028 0.304185
factor.Parda.1                  -9.009e-01  7.863e-01  -1.146 0.252163
factor.Amarela.1                -1.089e+00  8.481e-01  -1.284 0.199466
factor.SemReligiao.1            -9.670e-02  1.888e-01  -0.512 0.608566
factor.Catolica.1               -4.813e-01  1.862e-01  -2.585 0.009863 **
factor.Espirita.1               -1.235e-01  2.181e-01  -0.566 0.571230
factor.Evangelica.1             -9.177e-01  2.429e-01  -3.779 0.000166 ***
factor.AfroBrasileira.1          6.068e-01  4.303e-01   1.410 0.158794
factor.Turno.1                   1.534e-03  1.034e-01   0.015 0.988169
factor.Aposentado.1             -4.516e-02  1.055e-01  -0.428 0.668597
factor.OcupaEstDiApenasDesemp.1  7.249e-02  1.411e-01   0.514 0.607474
factor.ComFamilia.1             -4.323e-01  2.128e-01  -2.031 0.042444 *
factor.ComOutParentes.1         -5.029e-01  3.517e-01  -1.430 0.153011
factor.Republica.1               8.985e-03  1.959e-01   0.046 0.963429
factor.Sozinho.1                -2.475e-01  2.236e-01  -1.107 0.268673
factor.Pensao.1                 -8.439e-01  4.000e-01  -2.110 0.035106 *
factor.OutroMoradia.1           -5.262e-01  3.353e-01  -1.569 0.116880
factor.RU.1                     -1.937e-01  1.059e-01  -1.830 0.067589 .
factor.praec4.1                 -1.583e-01  2.666e-01  -0.594 0.552951
IdadeA                           3.787e-02  9.381e-03   4.037 5.79e-05 ***
escola                           8.576e-02  3.441e-02   2.492 0.012836 *
RendaPC                          4.045e-05  1.313e-05   3.080 0.002119 **
Dist                             2.605e-05  1.296e-04   0.201 0.840689
PraecSoma                        2.419e-02  3.086e-02   0.784 0.433427
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for quasipoisson family taken to be 0.6036898)

    Null deviance: 834.67  on 1135  degrees of freedom
Residual deviance: 706.16  on 1109  degrees of freedom
AIC: NA

Number of Fisher Scoring iterations: 5




-- 
MARCOS BISSOLI

Faculdade de Nutrição
Universidade Federal de Alfenas

Blog: bocademiamaldita.blogspot.com/
E-mail: mbissoli em gmail.com
Twitter: #mbissoli

Alfenas, Minas Gerais, Brasil


*****Pense na Natureza antes de Imprimir*****
Divulgue ON-LINE

Eu apoio a ENEN "na luta por um Brasil sem fome"

"por ĉiu popolo ties propran lingvon, por ĉiuj popoloj la esperantan"
(para cada povo sua própria língua, para todos os povos o Esperanto)

E nunca votarei no PSDB/DEM!
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20170207/929857ae/attachment.html>
-------------- Próxima Parte ----------
Um anexo não-texto foi limpo...
Nome: image.png
Tipo: image/png
Tamanho: 40068 bytes
Descrição: não disponível
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20170207/929857ae/attachment.png>


Mais detalhes sobre a lista de discussão R-br