[R-br] Desdobramento de um fatorial triplo
Walmes Zeviani
walmeszeviani em gmail.com
Ter Nov 19 15:52:30 -02 2019
Respostas dentro da mensagem.
À disposição.
Walmes.
On Mon, Nov 18, 2019 at 7:19 PM Maurício Lordêlo <mslordelo em gmail.com>
wrote:
> Obrigado Walmes!
> Tenho feito bastante esta análise exploratória por achar fundamental
> conhecer os dados. A questão que como dou muito suporte para trabalhos de
> mestrado e doutorado, eles cobram os testes de normalidade e homogeneidade
> de variâncias.
>
É uma cultura a ser mudada. Hábitos que de uma época com pouco recursos de
visualização e do uso precedural da estatística (faça o texte X, se
rejeitar H0, faça Y, caso contrário faça Z, etc). Também tenho contato com
público assim, mas tô sempre argumentando, redijo a leitura dos gráficos,
não reporto CV nas minhas análises (apenas quando o revisor não aceita as
justificativas dadas para omissão).
> Confesso que tenho muita dificuldade em explicar algumas funções e
> resultados do R para os pesquisadores da área de Agrárias e Biológicas.
> Muitas vezes é uma tarefa árdua pelos vícios que adquirem.
>
É uma cultura. Mudá-la leva tempo.
> Tenho feito o uso do pacote ExpDes, devido ao fato de muitos já terem
> utilizado o SisVar.
> Rodei esta transformação proposta [(m_seca_raiz + 0.00001)^0.5] usando a
> função a fat3dic deste pacote.
> Aproveitando a oportunidade, como o coeficiente de variação deu bem alto
> neste caso, qual a sua sugestão para convencer estes pesquisadores que esta
> medida não é "a medida"?
> Eles "idolatram" este coeficiente...rs rs rs.
>
Primeiro ponto é argumentar que não existe vínculo entre CV alto/baixo e
não atendimento ou não dos pressupostos.
Pode-se ter CV baixo com sérios afastamentos. Pode-se ter CV alto com total
conformidade com as suposições.
As pessoas criaram a regra no sentido inverso. Por exemplo, sempre viam que
dados de contagem tem alto CV e geralmente não atendem os pressupostos. Aí
entenderam que CV alto implica em falta de pressupostos, o que não é
fundamentalmente verdade. Sempre que se usava uma transformação
estabilizadora da variância, o CV era grande, mas porque a distribuição
assumida para aplicações das funções estabilizadoras mais comuns é Poisson
(contagem) ou proporção (Binomial), que não atendem os pressupostos.
Portanto, a prática sem muita reflexão ou esclarecimento criou uma regra ao
contrário, a de que CV alto é sinal de problema.
O segundo ponto são as faixas para classificação do CV em baixo, médio e
alto. Elas são arbitrárias. Aí os pesquisadores querem comparar um CV de 8%
para produtividade de grãos em experimentos em vários locais com um CV de
38% de crescimento radicular em cultivo in vitro avaliando o efeito de
doses homeopáticas de hormônio. Não tem como comparar isso. Uma coisa é
feita em macro escala, grandes parcelas, variável resposta controlada por
muitos genes e condições ambientais. O outro é micro escala. Um é
produtividade de grãos (kg/ha) o outro é comprimento (mm de raíz). Como que
uma estatística adquiriu tamanha e desproporcional importância?
Se você pensar o que o CV está medindo, fica claro que ele não deveria ser
usado em uma análise de experimentos. É o quociente entre desvio padrão
residual e média amostral do experimento (CV 100 · DP/M). Mas se o
experimento é feito com a premissa de existência de diferença entre médias
(efeito dos tratamentos), que valor tem uma estatística que usa uma média
global? Em alguns poucos contextos haverá justificativa (i.e. efeitos
aleatórios). Outro ponto é que pressupõe uma relação 1:1 entre média e
desvio padrão, justamente se contrapondo a suposição de ausência de relação
entre média e variância.
Existem muitos pontos frágeis sobre o CV. Eu poderia prosseguir aqui por
muitas linhas. Mas eu geralmente me atenho ao primeiro: não existe relação
entre valor do CV com atendimento dos pressupostos (a menos se for
conhecida a distribuição dos dados). O CV estando alto ou não, se os
pressupostos forem atendidos, a parte inferencial está assegurada
(distribuições das estatísticas de teste conforme esperado, cobertura dos
intervalos de confiança conforme esperado, níveis de significância conforme
esperado, etc). Mas se ainda o sujeito quiser olhar pro CV alto e dizer que
o experimento foi mal conduzido (é a coisa mais comum de ouvir), o que é
lamentável, veja se consegue dialogar e desfazer a cultura aos poucos.
>
> Outro pedido é que gostaria de uma função diferente destas (do pacote
> ExpDes) para obter estes resultados do desdobramento. Você tem alguma
> sugestão cujas sintaxe e resultado
> são mais ou menos fáceis de serem entendidas por este público?
>
Não tenho opções que sejam mais fáceis que o respostado pelo ExpDes ou
SISVAR.
Tenho apenas alternativas mais gerais para casos não gaussianos,
balanceados, etc. O que posso recomendar para fazer o desdobramento no caso
no glm(), survreg() e outros modelos paramétricos ou delineamentos mais
completos é `emmeans` e `multcomp`. Veja alguns exemplos a seguir.
GLM: http://leg.ufpr.br/~walmes/analises/WAALima/caiuae/caiuae.html
Survreg: http://leg.ufpr.br/~walmes/analises/CCastellar/frutosmaduros.html
LM:
http://leg.ufpr.br/~walmes/analises/PSFLichtemberg/Colletotrichum/phy-gf.html
Ancova: http://leg.ufpr.br/~walmes/mpaer/analise-de-covariancia.html
>
> Agradeço mais uma vez caso possa ajudar.
>
> Abraço,
>
> Maurício
>
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20191119/5ce4963a/attachment.html>
Mais detalhes sobre a lista de discussão R-br