[R-br] Interpretação Tabela ANOVA

Domingo Junho 22 17:55:23 BRT 2014

Existe diferença de interpretação da anova() e summary(). Pro caso de
regressão linear simples, não existe, já vai ficar claro.

O é método summary() para modelos (classes lm, aov, nls, glm, lme, lmer,
survreg, e muitos outros), mostra informações que podem ser divididas em:
informações da chamada (call), testes de hipótese (t valor, p valor) e
medidas de ajuste (aic, bic, log-verossimilhança, F, graus de liberdade
resíduais, etc).

O quadro de testes de hipótese são testes individuais para cada parâmetro e
marginais aos demais, ou seja, assumindo que o seu modelo tenha a fórmula
y~x1+x2+x3, no summary() são testadas quadro hipóteses: H0: b0==0? H0:
b1==0? H0: b2==0? H0: b3==0? O que não de ser esquecido é que essas
hipóteses são indivíduais e marginais, então H0: b1==0 significa que você
testa hipótese sob b1 sem fazer restrições para b2, b3 e b0. Sendo assim,
caso você aceite b1==0 e b2==0 porque eles apresentam p-valor menor que 5%,
digamos, não pode-se concluir que b1==b2==0. Essa última é uma hipótese
conjunta e marginal à b0 e b3.

O quadro de anova é diferente, nele são testadas hipóteses sequenciais ou
parcialmente marginais, ou parcialmente condicionais. Assumindo ainda o
mesmo modelo, a primeira linha testa b1 marginal à b0 (sem restringir b0) e
condicional à b2 e b3 (assume que são 0, pois não entraram no modelo ainda,
no caso). A segunda linha testa b2 marginal à b1 e b0 e condicional à b3
(assume que é zero). A última linha é b3 marginal à b0, b1 e b2, que no
caso é a mesma hipótese do summary(), mas só para o último termo do modelo.

Na situação de modelos de regressão múltipla, não é útil olhar para a
anova() e sim para o summary(). Por que? Porque em geral as variáveis são
contínuas e para avaliar o seu efeito basta testas o único parâmetro que a
multiplica pois o modelo é do tipo y = b0+b1*x1+b2*x2+... . Em casos como
esse, comuns em estudos observacionais, não existe garantia de
ortogonalidade entre as variáveis regressoras e obviamente testes marginais
são mais adequados.

No caso de experimentos planejados (geralmente balanceados, com efeitos
ortogonais e fatores categóricos) a anova é mais interessante que o
summary(). Por que? Porque sendo os efeitos ortogonais, mesmo a anova tendo
testes marginais por definição, as somas de quadrados são ortogonais pelo
delineamento planejado, o que faz com que os testes sejam então ortogonais.
Se uma variável é categórica com 5 níveis, o teste F da anova avalia a
hipótese conjunta de 5-1 parâmetros correspondente a não haver efeito deste
fator, ou seja, das 5 categorias serem representadas por 5 vs 1 parâmetro
(de 5 para 1, 4 graus de liberdade).

Nas situações que não estão nem em um extremo (só contínuas) nem em outro
(só categóricas, efeitos ortogonais), não se pode apontar qual dos dois é
mais relevante. Depende muito da situação. Na minha opinião, para o usuário
não treinado, é meio complicado avaliar o summary() para um modelo com
fatores categóricos, isso porque existe uma parametrização (por padrão,
zerar efeito do primeiro nível) que apesar de simples, para um usuário não
treinado, é incomodo, ele procura pelas médias mas o summary() não dá
médias. Isso fica ainda mais incomodo quando se trata de dois ou mais
fatores com interação.

No caso da regressão linear simples, anova() e summary(), por haver apenas
o parâmetro b1 sob hipótese, dão exatamente a mesma coisa, inclusive o
mesmo p-valor para b1, uma vez que o quadrado de uma v.a. t com 1 grau de
liberdade tem distribuição F.

À disposição.
Walmes.

-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20140622/fa34fb45/attachment.html>