[R-br] Duvidas Análise de Componentes Principais

Cesar Rabak cesar.rabak em gmail.com
Qui Abr 23 22:43:43 -03 2020


Como você já tem uma (excelente, diga-se de passagem) recomendação,
considerando o conhecimento do domínio do problema, do Mauro, acrescento
apenas a partir da "teoria" dessa técnica *em geral*.

Essa decisão de quantas CP reter pode ser auxiliada pelo diagrama de
*scree* que
os defensores dessa técnica propõe examinar o diagrama e ver quando a
"ingrimidade" do diagrama, muda, ou pegar CPs antes do "cotovelo" que o
diagrama indica.

A outra técnica é o que você já descreveu parcialmente acima, e ver quantos
% de variação explicada você precisa reter para entender o seu problema.

Analisar o diagrama de variáveis (cujos gráficos você denominou
correlacao{,34,45}.png lhe permitem entender no *quê* os casos se
diferenciam, e talvez possa servir de subsídio para suas análises.

HTH
--
Cesar Rabak

PS.: é necessário ter em mente o tempo todo para qual finalidade a ACP está
sendo realizada: se uma Análise Exploratória dos Dados ou passo anterior a
uma outra análise como parece ser seu caso na busca de uma multivariada.

On Thu, Apr 23, 2020 at 9:59 PM Fernando Souza <nandodesouza em gmail.com>
wrote:

> Cesar,
>
> Muito obrigado pela atenção! Você me ajudou muito.
> Eu também havia concluído que os fatores que utilizei (raças, planos e
> vol. conc), não aparentavam diferenças significativas, mas não estava muito
> seguro.
>
> Quanto ao número de componentes utilizar minha dúvida é a seguinte:
>
> 2 componentes: Eu explico somente 40% da variação
> 5 componentes: Eu explico 78% da variação
>
> Existe uma variação explicada mínima a ser considerada na escolha do
> número de componentes?
>
> Obrigado!
>
>
>
> On Apr 23 2020, at 9:10 pm, Cesar Rabak por (R-br) <
> r-br em listas.c3sl.ufpr.br> wrote:
>
> Os mapas de indivíduos para as duas primeiras dimensões mostram que há uma
> melhor representatividade dos valores extremos (v. Plano.png) onde o cos²
> é maior.
>
> Para as três variáveis categóricas que você usou (raças, planos e vol.
> conc) as elipses de confiança (que presumo sejam 95%) indicam que para essa
> amostra os dados não indicam diferenças com significância estatística
> dentro dos limiares usuais.
>
> Minhas referências de estudo para esse assunto :
>
> Foucart, T. L’analyse des données, mode d’emploi : méthodes et études de
> cas. Rennes.] Presses Univ. de Rennes, 1997.
> Escofier, B.; Pagès, J. Analyses factorielles simples et multiples:
> Objectifs, méthodes et interprétation. Paris. Dunod, 2008.
>
> A última trabalha bem a questão da interpretação com casos mais recentes,
> embora a primeira seja bem equilibrada entre teoria e exemplos práticos.
>
> Há material na Internet, mas não posso opinar sobre eles, inclusive vídeos.
>
> HTH
> --
> Cesar Rabak
>
>
> On Thu, Apr 23, 2020 at 4:57 PM Fernando Souza por (R-br) <
> r-br em listas.c3sl.ufpr.br> wrote:
>
> Olá Cesar
>
> Obrigado pelo retorno!
>
> Eu montei os gráficos (mapa de indivíduos) conforme sugerido e adicionei
> no link. Você poderia me orientar sobre a interpretação. Eu fiz uma aqui
> mas não estou seguro e gostaria de ouvir a opinião de alguém mais
> experiente para comparar com as que fiz. Você poderia me dizer o que pode
> concluir dos gráficos?
>
> https://drive.google.com/open?id=1jS5tCX-2-qHo2Gbej00DkFQBpLztwXks
>
> Aproveito para pedir dicas de boas referencias para estudo, principalmente
> como tirar as conclusões do PCA para o modelo.
>
> Atenciosamente
>
>
>
>
>
> Em qua., 22 de abr. de 2020 às 22:03, Cesar Rabak por (R-br) <
> r-br em listas.c3sl.ufpr.br> escreveu:
>
> Fernando,
>
> Há dois aspectos a ser vistos na sua ACP.
>
> O número de variáveis que você tem antes da ACP e número de casos para
> você fazer uma análise multivariada (nos dois casos).
>
> Um gráfico muito interessante para auxiliá-lo a decidir sobre seus
> resultados é o "mapa de indivíduos" que plota cada caso no plano das CP,
> sendo as primeiras componentes as mais "interessantes" posto que "espalham"
> mais os dados por terem sido resultado de uma operação matemática que
> maximiza a variâncias nesses dados.
>
> Nesses mapas de indivíduos você pode rotular com cores ou símbolos
> aspectos da sua investigação.
>
> O uso das primeiras CP usando o diagrama *scree* ajuda, *mas* a
> interpretação da multivariada que você venha a fazer precisará de mais
> trabalho, porém você escapa do problema de ter mais variáveis que casos,
> que exigiria uso de técnicas de validação cruzada, etc.
>
> HTH
> --
> Cesar Rabak
>
>
> On Wed, Apr 22, 2020 at 6:26 PM Fernando Souza por (R-br) <
> r-br em listas.c3sl.ufpr.br> wrote:
>
> Olá pessoal tudo bem
>
> Estou realizando uma análise de componentes principais, com o objetivo de
> selecionar as melhores variáveis para uma análise multivariada.
>
> Gostaria de uma orientação sobre a  interpretação. Eu interpretei de forma
> correta? Variáveis que possuem alta correlação com um CP também estão
> correlacionadas entre si. Isso significa que posso utilizar somente uma das
> principais variáveis do CP1 (por exemplo) para incluir no modelo
> multivariado? No caso a variável que apresentar significado para o trabalho.
>
> Os círculos de correlação, screem plot e corrplot geradas pelo Pca estão
> disponíveis no link
> https://drive.google.com/open?id=1jS5tCX-2-qHo2Gbej00DkFQBpLztwXks
>
> A interpretação que fiz foi a seguinte:
>
> Considerei as variáveis PC,IC e Prod leite (Azul no gráfico) como variável
> suplementar quantitativa.  Baseado no ScreenPlot selecionei somente 5 CP
> para avaliação que explicaram 67,80% da variancia total. Pela minha
> interpretação cheguei as seguintes conclusões
>
> Principais variáveis para cada componente:
>
> Consumos (CP1): CMS,CMO,CPB,CEE,CCNF,CFDNcp,CFDA,CNDT,CEB,CED,CEM,CEL
>
> Energia (CP2) : EB,ED,EM,EL
>
> Peso (CP3): PV,PCJ,PCVZ,PCVZ075
>
> Composição do Leite(CP4) : Solido e DCNF
>
> Variaveis sanguíneas (CP5): PT e ALBUMINA
>
>
>
> Segue uma descrição do trabalho para compreensão. Aceito sugestões sobre a
> melhor forma trabalhar esses dados
>
> O banco de dados é oriundo  dois estudos realizados pelo mesmo grupo de
> pesquisa nas mesmas condições experimentais
> (animais,instalação,dieta,manejo) e avaliaram 48 variáveis.
> Os fatores experimentais foram:
> *Raça*: Estudo 1 avaliou 12 animais (6 raça1 e 6 da raça 2). O estudo 2
> avaliou 13 animais (6 raça 1 e 7 raça 2)
> *Plano nutricional:*  O estudo 1 avaliou os níveis (0,15,30) o estudo 2
> avaliou os níveis (0,5,10,20)
> *Dias em lactação-DEL* (medidas repetidas no tempo):  Estudo 1, dias
> dispersos entre os períodos de 30 a 120 dias. No estudo 2 os DEL foram
> avaliados em dias entre 150 a 250 dias.
>
>
> Eu realizei uma análise gráfica e não há indicações de haver diferenças
> entre estudos, o que era de certo modo esperado. Raça e DEL parecem ser os
> fatores que afetam as variáveis respostas.
>
>
>
> --
> =========================================
> Fernando Souza
> Zootecnista, DSc. Produção e Alimentação Animal
> Celular: (31)99796-8781 (Vivo)
> E-mail:nandodesouza em gmail.com <e-mail%3Anandodesouza em gmail.com>
> Lattes: http://lattes.cnpq.br/6519538815038307
> Blog: https://producaoanimalcomr.wordpress.com/
> ==========================================
> _______________________________________________
> R-br mailing list
> R-br em listas.c3sl.ufpr.br
> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
> código mínimo reproduzível.
>
> _______________________________________________
> R-br mailing list
> R-br em listas.c3sl.ufpr.br
> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
> código mínimo reproduzível.
>
>
>
> --
> =========================================
> Fernando Souza
> Zootecnista, DSc. Produção e Alimentação Animal
> Celular: (31)99796-8781 (Vivo)
> E-mail:nandodesouza em gmail.com <e-mail%3Anandodesouza em gmail.com>
> Lattes: http://lattes.cnpq.br/6519538815038307
> Blog: https://producaoanimalcomr.wordpress.com/
> ==========================================
> _______________________________________________
> R-br mailing list
> R-br em listas.c3sl.ufpr.br
> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
> código mínimo reproduzível.
>
> _______________________________________________
> R-br mailing list
> R-br em listas.c3sl.ufpr.br
> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
> código mínimo reproduzível.
>
>
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20200423/5d3e4697/attachment.html>


Mais detalhes sobre a lista de discussão R-br