
Pessoal, estou tentando analisar dados de cobertura vegetal (5%, 10%, 15%, 20%..até 100%) e dados de biomassa (em gramas por m2) usando glm, pois nenhum dos dados apresenta distribuição normal, nem mesmo com transformação. Porém, estou em dúvida sobre qual família usar para cada variável. Alguém pode ajudar? Agradeço a ajuda.

Em Qui 25 jun. 2015, às 15:49, Karen Castillioni escreveu:
Pessoal, estou tentando analisar dados de cobertura vegetal (5%, 10%, 15%, 20%..até 100%) e dados de biomassa (em gramas por m2) usando glm, pois nenhum dos dados apresenta distribuição normal, nem mesmo com transformação. Porém, estou em dúvida sobre qual família usar para cada variável. Alguém pode ajudar? Agradeço a ajuda. _________________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
O que precisa ter distribuição normal (ou binomial, ou Poisson, ...) é o resíduo, e não as variáveis explanatórias ou de resposta. A página de ajuda para *family* lista as famílias de distribuição prontamente disponíveis. As distribuições "quasi" têm seus intervalos de confiança e valores p ajustados por um fator de dispersão, evitando que sejam invalidados por superdispersão (por exemplo, caso você queria utilizar poisson ou binomial). Se a sua variável de resposta for a cobertura vegetal, você provavelmente vai querer utilizar a família *quasibinomial(link = "identity")* para um modelo aditivo, ou *quasipoisson* para um modelo multiplicativo. Existem outras formas de conseguir intervalos de confiança e valores p válidos quando a distribuição não segue o esperado. Não sei trabalhar com estimação "sanduíche" da variância no R, mas sei que dá para usar bootstrap (http://www.ats.ucla.edu/stat/r/library/bootstrap.htm). Espero ter ajudado. Leonardo Ferreira Fontenelle[1] Links: 1. http://lattes.cnpq.br/9234772336296638

Obrigada pela ajuda, Leonardo! 2015-06-25 16:06 GMT-03:00 Leonardo Ferreira Fontenelle < leonardof@leonardof.med.br>:
Em Qui 25 jun. 2015, às 15:49, Karen Castillioni escreveu:
Pessoal, estou tentando analisar dados de cobertura vegetal (5%, 10%, 15%, 20%..até 100%) e dados de biomassa (em gramas por m2) usando glm, pois nenhum dos dados apresenta distribuição normal, nem mesmo com transformação. Porém, estou em dúvida sobre qual família usar para cada variável. Alguém pode ajudar? Agradeço a ajuda. *_______________________________________________* R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
O que precisa ter distribuição normal (ou binomial, ou Poisson, ...) é o resíduo, e não as variáveis explanatórias ou de resposta.
A página de ajuda para *family* lista as famílias de distribuição prontamente disponíveis. As distribuições "quasi" têm seus intervalos de confiança e valores p ajustados por um fator de dispersão, evitando que sejam invalidados por superdispersão (por exemplo, caso você queria utilizar poisson ou binomial). Se a sua variável de resposta for a cobertura vegetal, você provavelmente vai querer utilizar a família *quasibinomial(link = "identity")* para um modelo aditivo, ou *quasipoisson* para um modelo multiplicativo.
Existem outras formas de conseguir intervalos de confiança e valores p válidos quando a distribuição não segue o esperado. Não sei trabalhar com estimação "sanduíche" da variância no R, mas sei que dá para usar bootstrap (http://www.ats.ucla.edu/stat/r/library/bootstrap.htm).
Espero ter ajudado.
Leonardo Ferreira Fontenelle <http://lattes.cnpq.br/9234772336296638>
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.

Primeira coisa que você precisa refletir é sobre a gênese dos seus dados. Isso que vai dar candidatos de modelos de probabilidade para você. Nesse sentido algumas coisas precisam ser esclarecidas: 1) nem tudo que é contínuo é Normal. Fato, um exemplo são as variáveis limitadas, por exemplo, no intervalo unitário. É claro, porém, que dependendo da faixa de valores observados ou por meio de uma transformação, a normalidade seja atendida. 2) nem tudo que é contagem é Poisson. Devemos ter a Poisson como primeira opção mas estamos atentos para as suposições do modelo. A Poisson tem domínio nos naturais positivos (0,1,2,...), portanto não é um modelo que se deva usar para o número de acordes de uma canção porque toda canção tem no mínimo 2 acordes. Também não se pode usar para o número de fileiras de sementes em uma espiga de milho porque as fileiras se dão aos pares e nunca é zero também. A Poisson assume que os eventos são independentes, mas algumas situações a independência pode não ser razoável, como por exemplo, uma planta doente pode transmitir doença para outras, uma colisão de carro pode envolver mais veículos. 3) da mesma forma, nem tudo que é do tipo número de sucessos em um número de tentativas é binomial. É necessário que os ensaios tenham mesma probabilidade de ocorrência e que sejam independentes. Por exemplo, em estudos de germinação de sementes não se pode garantir que o potencial de germinação de 50 sementes seja o mesmo porque pode depender do seu tamanho. A sua variável resposta, pelo que você escreveu, é uma contínua limitada observada com censura. Parece o resultado de uma avaliação visual da cobertura do solo em uma escala de 20 pontos com distância de 5%. Dessa forma, ela não se encaixa em nenhum membro da família exponencial (não é gaussiana, nem Poisson, nem binomial, nem gama, nem inversa normal). Você pode usar a distribuição normal caso não encontre melhor candidato. Pode até ocorrer de apresentar normalidade, não custa tentar. MAS CUIDADO. Essa ideia de que os resíduos tem que apresentar normalidade. Veja o exemplo abaixo. url <- "http://www.leg.ufpr.br/~walmes/data/chimarrita.txt" da <- read.table(url, sep="\t", header=TRUE) da <- subset(da, fer=="sim") ## Variável binária (não normal, obviamente). xtabs(~lat48, data=da) plot(lat48~ms0, data=da) plot(lat48~b0, data=da) ## O evento latência as 48h parece ter relação com a matéria seca no ## instante 0h. Vamos ser negligentes propositalmente e ajustar um ## modelo gaussiano. m0 <- lm(lat48~ms0+b0, data=da) qqnorm(residuals(m0)) qqnorm(rstudent(m0)) shapiro.test(residuals(m0)) shapiro.test(rstudent(m0)) ## A RESPOSTA NÃO É NORMAL MAS OS RESÍDUOS SÃO NORMAIS. PODEMOS ENTÃO ## MANTER ESSE MODELO? ## Vamos ajustar um modelo de regressão logística. Isso assumue que Y é ## binomial, no caso, Bernoulli. m0 <- glm(lat48~ms0+b0, data=da, family=binomial) summary(m0) qqnorm(residuals(m0, type="response")) qqnorm(residuals(m0, type="deviance")) par(mfrow=c(2,2)); plot(m0); layout(1) shapiro.test(residuals(m0, type="response")) shapiro.test(residuals(m0, type="deviance")) ## OS RESÍDUOS TAMBÉM SÃO NORMAIS. O exemplo acima é mais do que suficiente. Não devemos perpetuar a ideia de que os resíduos apresentado normalidade implica na normalidade da resposta. É a normalidade da resposta que implica na normalidade dos resíduos. Além do mais, como o exemplo prova, até mesmo respostas não normais podem apresentar resíduos normais. O segundo ponto é que não sou a favor da aplicação de testes de hipótese para avaliação dos pressupostos. Sou a favor da inspeção gráfica e de pensar a respeito do que está sendo feito ali. À disposição. Walmes.
participantes (3)
-
Karen Castillioni
-
Leonardo Ferreira Fontenelle
-
walmes .