[R-br] two-way anova - violação das pressuposições

Cesar Rabak cesar.rabak em gmail.com
Qui Mar 28 16:26:13 -03 2019


Embora chegando atrasado a esta discussão, gostaria de contribuir com
algumas informações.

Primeiramente, uma questão de conceito: há uma certa confusão na
literatura, especialmente quando ela é ligada a algum manual de SW recente
a respeito da "premissa de normalidade" numa ANOVA.

Não é distribuição dos *dados* que precisa ser Gaussiana, mas sim a
distribuição dos resíduos após a ANOVA (que na verdade é um elegante teste
numa regressão linear onde a hipótese é que certos "fatores" mudam a média
da regressão.

Esse *equívoco* ele é perpetrado e perpetuado por "helps' e manuais de SW
que seus fabricantes para ganhar na guerra das *features* findam por
transformá-los em "boas práticas" ou exame obrigatório (quando os indicam
para os *dados*).

Um "contra exemplo" poderia ser ilustrativo.  Um experimentador resolve
testar uma resposta a um certo estímulo com três tratamentos, e por
conveniência, custo ou mesmo necessidade, a variável independente precisa
ser uma medida cuja distribuição é o conjunto de {1,2,3,...,10} unidades de
medida, e a resposta o conjunto de dez respostas, para três fatores A, B, C.

Ora, como a ANOVA não passa de um uma regressão linear já com resultados
formatados para responder a questão a respeito dos tratamentos, *por
premissa*, os vetores de respostas serão números proporcionais ao vetor da
VI e tampouco nenhum dos três teria distribuição gaussiana (a soma pode até
se aproximar, embora para trinta casos ainda esteja na "beirada", [CLT,
G-K, etc.]).

Mas como a matemática é exata e os instrumentos de medida não, nosso
antepassado notou que tanto as medidas da VI como a resposta "flutuam" em
volta de um valor real, que se for somado subtraído (se fosse
conhecido 😎)  geraria uns desvios cuja probalidade de serem grandes
diminui quanto maior o são e a relação funcional dessa probabilidade tem o
formato do sino (a curva que hoje o homenageamos dando-lhe o nome de Curva
de Gauss).

Portanto no nosso costume de análise a gente "faz de conta" que as medidas
da VI estão "certas" e que o desvio é uma distribuição de Gauss com média
zero e desvio padrão que é consequência do desvio padrão da medida vezes o
coeficiente angular da relação funcional (premissa de ser linear na ANOVA)
somado ao desvio padrão das medidas das respostas.

ESSA distribuição de valores os *resíduos* que precisam ser normais
(gaussianos).

Para isto não virar um tratado, estou eludindo discussões sobre a
distribuição mais conveniente dos dados das variáveis e outros aspectos que
entram em 'desenho' (projeto pois é trad. da palavra inglesa *design*)  de
experimentos, etc.

Além disso, para não colocar ene referências bibliográficas, coloco aqui o
saber de mestres como Thomas Lumley (consultor da OMS) e seus coautores THE
IMPORTANCE OF THE NORMALITY ASSUMPTION IN LARGE PUBLIC HEALTH DATA SETS
<https://www.annualreviews.org/doi/pdf/10.1146/annurev.publhealth.23.100901.140546>
.

Para os que não tenham tempo de ver o documento, submeto a vocês um resumo
dos pontos importantes:

   1. É bastante disseminada a crença que o teste *t* e a regressão linear
   são válidos apenas para resultados (desfechos) de distribuição normal.
   2. Essa ideia está errada.
   3. Esses testes (e acrescento eu por tabela ANOVA) são adequados para
   determinar se as diferenças têm significação estatística.
   4. O xis da questão não está nas distribuições, mas sim a detecção e
   estimação das diferenças nas médias dos desfechos responde à questão
   científica subjacente.

HTH
--
Cesar Rabak


On Thu, Mar 28, 2019 at 12:18 PM Marcelo Laia por (R-br) <
r-br em listas.c3sl.ufpr.br> wrote:

> Na minha busca por informação (para o meu conhecimento, mesmo) a respeito
> do
> tema, recebi a inestimável ajuda de vocês e também encontrei algumas
> coisas na
> internet.
>
> Daquilo que encontrei na net, eis um artigo que achei interessante:
>
>
> https://www.r-bloggers.com/normality-tests-don%E2%80%99t-do-what-you-think-they-do/
>
> ou
>
> https://wp.me/pMm6L-fpD
>
> Abraços a todos.
>
> Laia ML
>
>
>
> > > Colegas,
> > >
> > > Estamos com um conjunto de dados que viola pressuposições da ANOVA,
> > > principalmente a normalidade. Eu já li, por diversas vezes, que essa
> > > violação
> > > pode não ser tão danosa assim, devido a robustez do teste.
> > >
> > > Por favor, tire um tempo para ver os resultados e depois peço uma
> ajuda.
> > >
> > > Genotipo e Isolado são fatores
> > > Area está em centímetros quadrados
> > >
> > > > leveneTest(Area ~ Genotipo*Isolado, data = cerato.desc)
> > > Levene's Test for Homogeneity of Variance (center = median)
> > >        Df F value    Pr(>F)
> > > group  41  3.4755 4.718e-08 ***
> > >       126
> > > ---
> > > Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
> > > >
> > >
> > > cat("Normality p-values by Factor Genotipo: ")
> > > for (i in unique(factor(cerato.desc$Genotipo))){
> > >   cat(shapiro.test(cerato.desc[cerato.desc$Genotipo==i,
> ]$Area)$p.value,"
> > > ")
> > > }
> > > 7.074459e-10  3.200422e-06
> > >
> > > #Shapiro-Wilk normality tests by Isolado
> > > for (i in unique(factor(cerato.desc$Isolado))){
> > >   cat(shapiro.test(cerato.desc[cerato.desc$Isolado==i,
> ]$Area)$p.value," ")
> > > }
> > > 0.09534117  0.4006495  0.6065291  0.2093362  0.6138097  0.5604402
> > > 0.1302976  0.3135567  0.905537  0.7294285  0.0966383  0.1512716
> 0.8469947
> > > 0.1226855  0.2713435  0.9695489  0.2747097  0.5476302  0.0008750702
> > > 0.03693436  0.4197769
> > >
> > > > bartlett.test(Area~Genotipo,data = cerato.desc )
> > >
> > >         Bartlett test of homogeneity of variances
> > >
> > > data:  Area by Genotipo
> > > Bartlett's K-squared = 19.769, df = 1, p-value = 8.738e-06
> > >
> > > > bartlett.test(Area~Isolado,data = cerato.desc )
> > >
> > >         Bartlett test of homogeneity of variances
> > >
> > > data:  Area by Isolado
> > > Bartlett's K-squared = 171.26, df = 20, p-value < 2.2e-16
> > >
> > > A pergunta é: mesmo com esses resultados eu poderia afirmar que o
> teste,
> > > neste
> > > caso, será robusto o suficiente para essas violações?
> > >
> > > Obrigado!
> > >
> > > --
> > > Marcelo
>
> --
> Marcelo
> _______________________________________________
> R-br mailing list
> R-br em listas.c3sl.ufpr.br
> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e fornea cdigo
> mnimo reproduzvel.
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20190328/5ea22081/attachment.html>


Mais detalhes sobre a lista de discussão R-br