[R-br] Dúvida glm (family)

Quinta Junho 25 19:38:16 BRT 2015

Primeira coisa que você precisa refletir é sobre a gênese dos seus dados.
Isso que vai dar candidatos de modelos de probabilidade para você. Nesse
sentido algumas coisas precisam ser esclarecidas:

1) nem tudo que é contínuo é Normal. Fato, um exemplo são as variáveis
limitadas, por exemplo, no intervalo unitário. É claro, porém, que
dependendo da faixa de valores observados ou por meio de uma transformação,
a normalidade seja atendida.

2) nem tudo que é contagem é Poisson. Devemos ter a Poisson como primeira
opção mas estamos atentos para as suposições do modelo. A Poisson tem
domínio nos naturais positivos (0,1,2,...), portanto não é um modelo que se
deva usar para o número de acordes de uma canção porque toda canção tem no
mínimo 2 acordes. Também não se pode usar para o número de fileiras de
sementes em uma espiga de milho porque as fileiras se dão aos pares e nunca
é zero também. A Poisson assume que os eventos são independentes, mas
algumas situações a independência pode não ser razoável, como por exemplo,
uma planta doente pode transmitir doença para outras, uma colisão de carro
pode envolver mais veículos.

3) da mesma forma, nem tudo que é do tipo número de sucessos em um número
de tentativas é binomial. É necessário que os ensaios tenham mesma
probabilidade de ocorrência e que sejam independentes. Por exemplo, em
estudos de germinação de sementes não se pode garantir que o potencial de
germinação de 50 sementes seja o mesmo porque pode depender do seu tamanho.

A sua variável resposta, pelo que você escreveu, é uma contínua limitada
observada com censura. Parece o resultado de uma avaliação visual da
cobertura do solo em uma escala de 20 pontos com distância de 5%. Dessa
forma, ela não se encaixa em nenhum membro da família exponencial (não é
gaussiana, nem Poisson, nem binomial, nem gama, nem inversa normal). Você
pode usar a distribuição normal caso não encontre melhor candidato. Pode
até ocorrer de apresentar normalidade, não custa tentar.

MAS CUIDADO. Essa ideia de que os resíduos tem que apresentar normalidade.
Veja o exemplo abaixo.

url <- "http://www.leg.ufpr.br/~walmes/data/chimarrita.txt"
da <- read.table(url, sep="\t", header=TRUE)
da <- subset(da, fer=="sim")

## Variável binária (não normal, obviamente).
xtabs(~lat48, data=da)

plot(lat48~ms0, data=da)
plot(lat48~b0, data=da)

## O evento latência as 48h parece ter relação com a matéria seca no
## instante 0h. Vamos ser negligentes propositalmente e ajustar um
## modelo gaussiano.

m0 <- lm(lat48~ms0+b0, data=da)

qqnorm(residuals(m0))
qqnorm(rstudent(m0))

shapiro.test(residuals(m0))
shapiro.test(rstudent(m0))

## A RESPOSTA NÃO É NORMAL MAS OS RESÍDUOS SÃO NORMAIS. PODEMOS ENTÃO
## MANTER ESSE MODELO?

## Vamos ajustar um modelo de regressão logística. Isso assumue que Y é
## binomial, no caso, Bernoulli.

m0 <- glm(lat48~ms0+b0, data=da, family=binomial)
summary(m0)

qqnorm(residuals(m0, type="response"))
qqnorm(residuals(m0, type="deviance"))

par(mfrow=c(2,2)); plot(m0); layout(1)

shapiro.test(residuals(m0, type="response"))
shapiro.test(residuals(m0, type="deviance"))

## OS RESÍDUOS TAMBÉM SÃO NORMAIS.

O exemplo acima é mais do que suficiente. Não devemos perpetuar a ideia de
que os resíduos apresentado normalidade implica na normalidade da resposta.
É a normalidade da resposta que implica na normalidade dos resíduos. Além
do mais, como o exemplo prova, até mesmo respostas não normais podem
apresentar resíduos normais. O segundo ponto é que não sou a favor da
aplicação de testes de hipótese para avaliação dos pressupostos. Sou a
favor da inspeção gráfica e de pensar a respeito do que está sendo feito
ali.

À disposição.
Walmes.

-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20150625/ae9ce330/attachment.html>