Dados com ausência de valores para determinadas variáveis e colineariade entre

Colegas, Tenho um conjunto de dados conforme modelo abaixo: Genotipo Tratamento Repeticao Composto1 Composto2 Composto3 Composto4 C13 Resistente SI R1 0,04 8,77 0 C13 Resistente SI R2 0 8,67 0 C13 Resistente SI R3 0 7,99 0 C13 Resistente CI R1 0,04 33,83 0 C13 Resistente CI R2 0,02 6,68 0 C13 Resistente CI R3 0 7,32 0 C08 Resistente SI R1 0,01 30,48 0,04 C08 Resistente SI R2 0 22,83 0 C08 Resistente SI R3 0 30,66 0 C08 Resistente CI R1 0 30,19 0 C08 Resistente CI R2 0 26,69 0 C08 Resistente CI R3 0 33,55 0 C17 Suscetível SI R1 0,08 16,94 0 C17 Suscetível SI R2 0,06 22,3 0 C17 Suscetível SI R3 0,07 17,19 0 C17 Suscetível CI R1 0,05 17,72 0 C17 Suscetível CI R2 0,05 19,46 0 C17 Suscetível CI R3 0,13 30,15 0 C11 Suscetível SI R1 0,04 30,03 0 C11 Suscetível SI R2 0 38,64 0 C11 Suscetível SI R3 0,06 42,59 0 C11 Suscetível CI R1 0,04 36,96 0 C11 Suscetível CI R2 0 49,7 0 C11 Suscetível CI R3 0 37,67 0,06 Esse exemplo está disponível no endereço: https://www.dropbox.com/s/izccqoifwnjkdlu/Exemplo.csv Genotipo - diferentes genótipos, incluindo plantas resistentes e suscetíveis Tratamento - SI = sem inoculação; CI = com inoculação Repeticao - R1 = planta 1; R2 = planta 2; R3 = planta 3 Composto1 a Composton = valor aferido (medido) nas folhas de cada planta para o respectivo composto Interesse: 1. verificar quais compostos são produzidos em função da inoculação (CI vs SI) 2. verificar quais compostos são produzidos em função do Estado (Resistente vs Suscetível) 3. verificar se o Genotipo interfere na produção de determinado composto (composto específico a um dado Genotipo) 4. verificar se os demais genótipos diferem do E. camaldulensis. O valor 0 (zero) para um determinado composto não significa zero, mas, significa que aquele composto não foi encontrado naquela planta (repetição). Logo, 0 significa NA. A minha ideia é analisar composto a composto separadamente. Tenho 117 compostos. Modelo que tentei usar: dados02 <- read.table(url("https://www.dropbox.com/s/izccqoifwnjkdlu/Exemplo.csv?dl=1"), sep="\t", header=TRUE, dec=",") dados02 fit02 <- lm(Composto1 ~ Genotipo * Estado * Tratamento, data=dados02) summary(fit02) Aparece o seguinte erro: Coefficients: (9 not defined because of singularities) Pelo que li, parece que a variável é colinear ou possui correlação. Não sei como resolver. Outras perguntas: A minha abordagem está apropriada? Terei que rodar as 117? Existe uma maneira mais adequada de responder às quatro perguntas acima? Principalmente a 1 e 2? Gráficos? Obrigado! -- Marcelo

Marcelo, Quantos casos você tem para conseguir estudar todos os compostos? Por que você acha que uma regressão linear seria um bom modelo para explicar a existência dos compostos? Na formulação você busca a interação entre o Genótipo, o Estado e o Tratamento. Você viu na resposta da regressão quantas classes de fatores foram geradas? Você precisa olhar na documentação como coloca no modelo o fato que tem repetições. Por outro lado, se deseja-se estudar o 117 compostos com apenas um número pequeno de casos (p/m/entendimento oito com três repetições para cada) você terá que buscar outra abordagem, tipicamente usada em genômica. HTH On Thu, May 20, 2021 at 3:19 PM Marcelo Laia por (R-br) < r-br@listas.c3sl.ufpr.br> wrote:
Colegas,
Tenho um conjunto de dados conforme modelo abaixo:
Genotipo Tratamento Repeticao Composto1 Composto2 Composto3 Composto4 C13 Resistente SI R1 0,04 8,77 0 C13 Resistente SI R2 0 8,67 0 C13 Resistente SI R3 0 7,99 0 C13 Resistente CI R1 0,04 33,83 0 C13 Resistente CI R2 0,02 6,68 0 C13 Resistente CI R3 0 7,32 0 C08 Resistente SI R1 0,01 30,48 0,04 C08 Resistente SI R2 0 22,83 0 C08 Resistente SI R3 0 30,66 0 C08 Resistente CI R1 0 30,19 0 C08 Resistente CI R2 0 26,69 0 C08 Resistente CI R3 0 33,55 0 C17 Suscetível SI R1 0,08 16,94 0 C17 Suscetível SI R2 0,06 22,3 0 C17 Suscetível SI R3 0,07 17,19 0 C17 Suscetível CI R1 0,05 17,72 0 C17 Suscetível CI R2 0,05 19,46 0 C17 Suscetível CI R3 0,13 30,15 0 C11 Suscetível SI R1 0,04 30,03 0 C11 Suscetível SI R2 0 38,64 0 C11 Suscetível SI R3 0,06 42,59 0 C11 Suscetível CI R1 0,04 36,96 0 C11 Suscetível CI R2 0 49,7 0 C11 Suscetível CI R3 0 37,67 0,06
Esse exemplo está disponível no endereço: https://www.dropbox.com/s/izccqoifwnjkdlu/Exemplo.csv
Genotipo - diferentes genótipos, incluindo plantas resistentes e suscetíveis
Tratamento - SI = sem inoculação; CI = com inoculação
Repeticao - R1 = planta 1; R2 = planta 2; R3 = planta 3
Composto1 a Composton = valor aferido (medido) nas folhas de cada planta para o respectivo composto
Interesse:
1. verificar quais compostos são produzidos em função da inoculação (CI vs SI)
2. verificar quais compostos são produzidos em função do Estado (Resistente vs Suscetível)
3. verificar se o Genotipo interfere na produção de determinado composto (composto específico a um dado Genotipo)
4. verificar se os demais genótipos diferem do E. camaldulensis.
O valor 0 (zero) para um determinado composto não significa zero, mas, significa que aquele composto não foi encontrado naquela planta (repetição). Logo, 0 significa NA.
A minha ideia é analisar composto a composto separadamente. Tenho 117 compostos.
Modelo que tentei usar:
dados02 <- read.table(url(" https://www.dropbox.com/s/izccqoifwnjkdlu/Exemplo.csv?dl=1"), sep="\t", header=TRUE, dec=",")
dados02
fit02 <- lm(Composto1 ~ Genotipo * Estado * Tratamento, data=dados02)
summary(fit02)
Aparece o seguinte erro:
Coefficients: (9 not defined because of singularities)
Pelo que li, parece que a variável é colinear ou possui correlação. Não sei como resolver.
Outras perguntas:
A minha abordagem está apropriada? Terei que rodar as 117?
Existe uma maneira mais adequada de responder às quatro perguntas acima? Principalmente a 1 e 2? Gráficos?
Obrigado!
-- Marcelo _______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.

Olá César, Muito obrigado! Após ter enviado a mensagem para a lista, eu verifiquei algo óbvio: Genótipo e Estado (Resistente ou Suscetível) são a mesma coisa! kkkk Não faz o menor sentido incluir interação entre os dois. Aliás, é algo impossível! kkk Assim, estou trabalhando da seguinte maneira: fit01 <- lm(Composto1 ~ Genotipo * Tratamento, data=dados02) Eu somente não entendi o que você quis indicar-me com "Você precisa olhar na documentação como coloca no modelo o fato que tem repetições". Vou pesquisar. -- Marcelo

OK! Numa leitura perfunctória a gente que não mergulha no assim denominado *domínio do problema* em contraponto ao domínio da Estatística (como disciplina matemática) obviamente não tem condições de detectar essas coisas que o interessado pode fazer com uma inspeção mais criteriosa. Ótimo que você detectou e resolveu esse problema. Alias, sem querer ser enfático demais nem quero parecer que estou colocando sapatos de chumbo nos pesquisadores que efetuam suas análises, gostaria de aproveitar o ensejo para indicar a vantagem de usar um processo de Análise Estatística em três fases (que por sinal, para ficar no tópico desta lista, o R oferece sobejas ferramentas para fazer de maneira expedita e completa): 1. Uma estatística descritiva, com ênfase em apresentação gráfica dos dados. 2. Uma análise (estatística) exploratória como proposta, principalmente, por Tukey. 3. Finalmente a inferencial, levando em conta que a modelagem deve seguir as hipóteses e não o contrário, que seria uma abordagem lícita na *exploratória* mas passível de ser tachada como *Questionable Research Practice* – QRP na *inferencial!* No caso da descritiva, um diagrama do tipo *Draftsman Draftsman's plot <https://www.oxfordreference.com/view/10.1093/oi/authority.20110803095729868>* mostraria a correlação "perfeita" entre as duas variáveis e já serviria de um aviso para a não inclusão no modelo. O plot.design é outro gráfico que permite explorar as possíveis respostas em função dos fatores que se manipularam no experimento. Por fim além da mecânica de como considerar as repetições, é importante entender a importância dessa correção para que os resultados sejam úteis no estudo do experimento. HTH -- Cesar Rabak On Sat, May 22, 2021 at 12:06 PM Marcelo Laia <marcelolaia@gmail.com> wrote:
Olá César,
Muito obrigado!
Após ter enviado a mensagem para a lista, eu verifiquei algo óbvio:
Genótipo e Estado (Resistente ou Suscetível) são a mesma coisa! kkkk Não faz o menor sentido incluir interação entre os dois. Aliás, é algo impossível! kkk
Assim, estou trabalhando da seguinte maneira:
fit01 <- lm(Composto1 ~ Genotipo * Tratamento, data=dados02)
Eu somente não entendi o que você quis indicar-me com "Você precisa olhar na documentação como coloca no modelo o fato que tem repetições".
Vou pesquisar.
-- Marcelo
participantes (2)
-
Cesar Rabak
-
Marcelo Laia