[R-br] Análise de Fatores PCA e Dendograma

Cesar Rabak cesar.rabak em gmail.com
Segunda Abril 13 15:35:43 BRT 2015


André,

A organização dos dados "por ano" dependerão muito do que você espera fazer
como análise em relação a esse fator (em princípio o ano não poderia ser
considerado uma variável contínua).

De um modo geral, a menos que algo espetacular ocorresse em alguma cidade,
os dados das variáveis de ano a ano seriam muito correlacionadas de sorte
que uma PCA sobre elas apenas redundaria o óbvio...

Se você puder indicar com mais clareza qual é o objetivo de fazer a PCA com
dados de vários anos talvez a gente possa chegar a algum consenso...

HTH
--
Cesar Rabak

2015-04-12 22:00 GMT-03:00 Andre Oliveira <andreolsouza em yahoo.com.br>:

> Cesar Rabak,
> obrigado pela resposta. Esta é a questão como organizar os três bancos de
> dados levando em conta a variável ano, pois, pelo que tenho olhado  as
> funções hclust() e prcomp() não extrai os PCAs e nem o dendograma
> replicando ano. Todos os exemplos do R trabalham com dados de um ano
> apenas. O objetivo é agrupar as cidades e os bancos de dados  USArrests2007,
> USArrests2009 e USArrests2010 são fictícios e estão ai apenas para ilustrar
> que tenho 3 bancos com mesma estrutura do  USArrests.
>
> Dado que tenho apenas o  USArrests,  tudo pode ser  resolvido com o CMR
> com pequenas variações de escala e padronização das variáveis se desejar.
>
> hc=hclust(dist(USArrests))
> plot(hc)
> summary(prcomp(USArrests))
>
> Obrigado
>
>
>
>
>
>
>
>
> André Oliveira Souza.
> Graduação em Matemática, mestrado em estatística aplicada.Instituto
> Federal de Educação, Ciência e Tecnologia do Espirito Santo.  IFES
>
>
>
>
>   Em Domingo, 12 de Abril de 2015 18:14, Cesar Rabak <
> cesar.rabak em gmail.com> escreveu:
>
>
> Embora você cite os procedimentos de PCA e plotar dendrograma e "análise
> dos fatores", você não dá muita informação de porque você precisa fazer
> essa análise e a que conclusões deseja chegar ou quais hipóteses avaliar.
>
> Não sei onde estão os dataframes USArrests2007, USArrests2009 e
> USArrests2010, tendo nos meus defaults apenas o USArrests. Considerando
> este último, vê-se que a estrutura dele é 50 linhas com cada uma um estado
> americano por quatro variáveis (três crimes e uma com a população), se você
>  for anexar bancos com estatísticas de diferentes anos você terá que
> considerar como colocar a variável ano em jogo e como analisar os estados
> americanos para manter apenas as cinquenta linhas...
>
> A análise de componentes principais já faz todos os cálculos necessários,
> assim calcular as médias em separado só faria sentido para alguma análise
> descritiva (incidentalmente você pode [dependendo do pacote que use para
> fazer a PCA] escolher se a análise será centrada na média de cada variável
> ou não).
>
> Quanto aos comandos R que você colocou, eles não formam um CMR e por isso
> não dá para comentar a respeito.
>
> HTH
> --
> Cesar Rabak
>
> 2015-04-10 16:39 GMT-03:00 Andre Oliveira <andreolsouza em yahoo.com.br>:
>
> Pessoal boa tarde,
> estou com dois bancos de dados com a estrutura do  USArrests que vem no R
> só que repetido no tempo.  USArrests2007,  USArrests2009,  USArrests2010.
> Gostaria de orientação de como anexar estes dados para em um banco de dados
> único e rodar PCA, Plotar,  dendograma e a análise de fatores.  Pelo que
> percebi em meus devo  fazer o seguinte.  Montar um banco de dados com os
> três bancos e tirar a soma ou média. Não sei se fere princípios da análise.
>
> dados= data.frame(USArrests2007,  USArrests2009,  USArrests2010)   # Não
> sei se é data.frame aqui mesmo!
>
> V1=tapply(V1,grupos,mean)
> .
> .
> .
> .
> .
> Vn=tapply(Vn,grupos,mean)
>
> dadosmedio=cbind(V1, ........................,Vn)
> hclust(dist(dadosmedio)
> prcomp(dadosmédio)
>
> Ou usar a estrutura com  Vn=tapply(Vn,grupos,sum) em vez de Vn=tapply(Vn,grupos,mean).
> Ou usar o próprio banco formado por  USArrests2007,  USArrests2009,
> USArrests2010.
>
> Caso falei besteira, desconsidere. Ficarei agradecido por sugestões.
>
>
> obrigado pela atenção
>
>
>
>
>
>
>
>
> André Oliveira Souza.
> Graduação em Matemática, mestrado em estatística aplicada.Instituto
> Federal de Educação, Ciência e Tecnologia do Espirito Santo.  IFES
>
>
> _______________________________________________
> R-br mailing list
> R-br em listas.c3sl.ufpr.br
> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
> código mínimo reproduzível.
>
>
>
>
>
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20150413/a504b15a/attachment.html>


Mais detalhes sobre a lista de discussão R-br