<div dir="ltr">Embora chegando atrasado a esta discussão, gostaria de contribuir com algumas informações.<div><br></div><div>Primeiramente, uma questão de conceito: há uma certa confusão na literatura, especialmente quando ela é ligada a algum manual de SW recente a respeito da "premissa de normalidade" numa ANOVA.</div><div><br></div><div>Não é distribuição dos <b>dados</b> que precisa ser Gaussiana, mas sim a distribuição dos resíduos após a ANOVA (que na verdade é um elegante teste numa regressão linear onde a hipótese é que certos "fatores" mudam a média da regressão.</div><div><br></div><div>Esse <i>equívoco</i> ele é perpetrado e perpetuado por "helps' e manuais de SW que seus fabricantes para ganhar na guerra das <i>features</i> findam por transformá-los em "boas práticas" ou exame obrigatório (quando os indicam para os <b><u>dados</u></b>).</div><div><br></div><div>Um "contra exemplo" poderia ser ilustrativo.  Um experimentador resolve testar uma resposta a um certo estímulo com três tratamentos, e por conveniência, custo ou mesmo necessidade, a variável independente precisa ser uma medida cuja distribuição é o conjunto de {1,2,3,...,10} unidades de medida, e a resposta o conjunto de dez respostas, para três fatores <font face="arial black, sans-serif">A</font>, <font face="arial black, sans-serif">B</font>, <font face="arial black, sans-serif">C</font>.</div><div><br></div><div>Ora, como a ANOVA não passa de um uma regressão linear já com resultados formatados para responder a questão a respeito dos tratamentos, <u>por premissa</u>, os vetores de respostas serão números proporcionais ao vetor da VI e tampouco nenhum dos três teria distribuição gaussiana (a soma pode até se aproximar, embora para trinta casos ainda esteja na "beirada", [CLT, G-K, etc.]).</div><div><br></div><div>Mas como a matemática é exata e os instrumentos de medida não, nosso antepassado notou que tanto as medidas da VI como a resposta "flutuam" em volta de um valor real, que se for <strike>somado</strike> subtraído (se fosse conhecido 😎)  geraria uns desvios cuja probalidade de serem grandes diminui quanto maior o são e a relação funcional dessa probabilidade tem o formato do sino (a curva que hoje o homenageamos dando-lhe o nome de Curva de Gauss).</div><div><br></div><div>Portanto no nosso costume de análise a gente "faz de conta" que as medidas da VI estão "certas" e que o desvio é uma distribuição de Gauss com média zero e desvio padrão que é consequência do desvio padrão da medida vezes o coeficiente angular da relação funcional (premissa de ser linear na ANOVA) somado ao desvio padrão das medidas das respostas.</div><div><br></div><div>ESSA distribuição de valores os <b>resíduos</b> que precisam ser normais (gaussianos).</div><div><br></div><div>Para isto não virar um tratado, estou eludindo discussões sobre a distribuição mais conveniente dos dados das variáveis e outros aspectos que entram em 'desenho' (projeto pois é trad. da palavra inglesa <i>design</i>)  de experimentos, etc.</div><div><br></div><div>Além disso, para não colocar ene referências bibliográficas, coloco aqui o saber de mestres como Thomas Lumley (consultor da OMS) e seus coautores <a href="https://www.annualreviews.org/doi/pdf/10.1146/annurev.publhealth.23.100901.140546">THE IMPORTANCE OF THE NORMALITY ASSUMPTION IN LARGE PUBLIC HEALTH DATA SETS</a>.</div><div><br></div><div>Para os que não tenham tempo de ver o documento, submeto a vocês um resumo dos pontos importantes:</div><div><ol><li>É bastante disseminada a crença que o teste <i>t</i> e a regressão linear são válidos apenas para resultados (desfechos) de distribuição normal.</li><li>Essa ideia está errada.</li><li>Esses testes (e acrescento eu por tabela ANOVA) são adequados para determinar se as diferenças têm significação estatística.</li><li>O xis da questão não está nas distribuições, mas sim a detecção e estimação das diferenças nas médias dos desfechos responde à questão científica subjacente.</li></ol><div>HTH</div></div><div>--</div><div>Cesar Rabak</div><div><br></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Thu, Mar 28, 2019 at 12:18 PM Marcelo Laia por (R-br) <<a href="mailto:r-br@listas.c3sl.ufpr.br">r-br@listas.c3sl.ufpr.br</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">Na minha busca por informação (para o meu conhecimento, mesmo) a respeito do<br>
tema, recebi a inestimável ajuda de vocês e também encontrei algumas coisas na<br>
internet.<br>
<br>
Daquilo que encontrei na net, eis um artigo que achei interessante:<br>
<br>
<a href="https://www.r-bloggers.com/normality-tests-don%E2%80%99t-do-what-you-think-they-do/" rel="noreferrer" target="_blank">https://www.r-bloggers.com/normality-tests-don%E2%80%99t-do-what-you-think-they-do/</a><br>
<br>
ou<br>
<br>
<a href="https://wp.me/pMm6L-fpD" rel="noreferrer" target="_blank">https://wp.me/pMm6L-fpD</a><br>
<br>
Abraços a todos.<br>
<br>
Laia ML<br>
<br>
<br>
<br>
> > Colegas,<br>
> ><br>
> > Estamos com um conjunto de dados que viola pressuposições da ANOVA,<br>
> > principalmente a normalidade. Eu já li, por diversas vezes, que essa<br>
> > violação<br>
> > pode não ser tão danosa assim, devido a robustez do teste.<br>
> ><br>
> > Por favor, tire um tempo para ver os resultados e depois peço uma ajuda.<br>
> ><br>
> > Genotipo e Isolado são fatores<br>
> > Area está em centímetros quadrados<br>
> ><br>
> > > leveneTest(Area ~ Genotipo*Isolado, data = cerato.desc)<br>
> > Levene's Test for Homogeneity of Variance (center = median)<br>
> >        Df F value    Pr(>F)<br>
> > group  41  3.4755 4.718e-08 ***<br>
> >       126<br>
> > ---<br>
> > Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1<br>
> > ><br>
> ><br>
> > cat("Normality p-values by Factor Genotipo: ")<br>
> > for (i in unique(factor(cerato.desc$Genotipo))){<br>
> >   cat(shapiro.test(cerato.desc[cerato.desc$Genotipo==i, ]$Area)$p.value,"<br>
> > ")<br>
> > }<br>
> > 7.074459e-10  3.200422e-06<br>
> ><br>
> > #Shapiro-Wilk normality tests by Isolado<br>
> > for (i in unique(factor(cerato.desc$Isolado))){<br>
> >   cat(shapiro.test(cerato.desc[cerato.desc$Isolado==i, ]$Area)$p.value," ")<br>
> > }<br>
> > 0.09534117  0.4006495  0.6065291  0.2093362  0.6138097  0.5604402<br>
> > 0.1302976  0.3135567  0.905537  0.7294285  0.0966383  0.1512716  0.8469947<br>
> > 0.1226855  0.2713435  0.9695489  0.2747097  0.5476302  0.0008750702<br>
> > 0.03693436  0.4197769<br>
> ><br>
> > > bartlett.test(Area~Genotipo,data = cerato.desc )<br>
> ><br>
> >         Bartlett test of homogeneity of variances<br>
> ><br>
> > data:  Area by Genotipo<br>
> > Bartlett's K-squared = 19.769, df = 1, p-value = 8.738e-06<br>
> ><br>
> > > bartlett.test(Area~Isolado,data = cerato.desc )<br>
> ><br>
> >         Bartlett test of homogeneity of variances<br>
> ><br>
> > data:  Area by Isolado<br>
> > Bartlett's K-squared = 171.26, df = 20, p-value < 2.2e-16<br>
> ><br>
> > A pergunta é: mesmo com esses resultados eu poderia afirmar que o teste,<br>
> > neste<br>
> > caso, será robusto o suficiente para essas violações?<br>
> ><br>
> > Obrigado!<br>
> ><br>
> > --<br>
> > Marcelo<br>
<br>
-- <br>
Marcelo<br>
_______________________________________________<br>
R-br mailing list<br>
<a href="mailto:R-br@listas.c3sl.ufpr.br" target="_blank">R-br@listas.c3sl.ufpr.br</a><br>
<a href="https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br" rel="noreferrer" target="_blank">https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br</a><br>
Leia o guia de postagem (<a href="http://www.leg.ufpr.br/r-br-guia" rel="noreferrer" target="_blank">http://www.leg.ufpr.br/r-br-guia</a>) e fornea cdigo mnimo reproduzvel.</blockquote></div>