André,

A organização dos dados "por ano" dependerão muito do que você espera fazer como análise em relação a esse fator (em princípio o ano não poderia ser considerado uma variável contínua).

De um modo geral, a menos que algo espetacular ocorresse em alguma cidade, os dados das variáveis de ano a ano seriam muito correlacionadas de sorte que uma PCA sobre elas apenas redundaria o óbvio...

Se você puder indicar com mais clareza qual é o objetivo de fazer a PCA com dados de vários anos talvez a gente possa chegar a algum consenso...

HTH
--
Cesar Rabak

2015-04-12 22:00 GMT-03:00 Andre Oliveira <andreolsouza@yahoo.com.br>:
Cesar Rabak,
obrigado pela resposta. Esta é a questão como organizar os três bancos de dados levando em conta a variável ano, pois, pelo que tenho olhado  as funções hclust() e prcomp() não extrai os PCAs e nem o dendograma replicando ano. Todos os exemplos do R trabalham com dados de um ano apenas. O objetivo é agrupar as cidades e os bancos de dados  USArrests2007, USArrests2009 e USArrests2010 são fictícios e estão ai apenas para ilustrar que tenho 3 bancos com mesma estrutura do  USArrests. 

Dado que tenho apenas o  USArrests,  tudo pode ser  resolvido com o CMR com pequenas variações de escala e padronização das variáveis se desejar.

hc=hclust(dist(USArrests))
plot(hc)
summary(prcomp(USArrests))

Obrigado 





 


André Oliveira Souza.
Graduação em Matemática, mestrado em estatística aplicada.Instituto Federal de Educação, Ciência e Tecnologia do Espirito Santo.  IFES




Em Domingo, 12 de Abril de 2015 18:14, Cesar Rabak <cesar.rabak@gmail.com> escreveu:


Embora você cite os procedimentos de PCA e plotar dendrograma e "análise dos fatores", você não dá muita informação de porque você precisa fazer essa análise e a que conclusões deseja chegar ou quais hipóteses avaliar.

Não sei onde estão os dataframes USArrests2007, USArrests2009 e USArrests2010, tendo nos meus defaults apenas o USArrests. Considerando este último, vê-se que a estrutura dele é 50 linhas com cada uma um estado americano por quatro variáveis (três crimes e uma com a população), se você  for anexar bancos com estatísticas de diferentes anos você terá que considerar como colocar a variável ano em jogo e como analisar os estados americanos para manter apenas as cinquenta linhas...

A análise de componentes principais já faz todos os cálculos necessários, assim calcular as médias em separado só faria sentido para alguma análise descritiva (incidentalmente você pode [dependendo do pacote que use para fazer a PCA] escolher se a análise será centrada na média de cada variável ou não).

Quanto aos comandos R que você colocou, eles não formam um CMR e por isso não dá para comentar a respeito.

HTH
--
Cesar Rabak

2015-04-10 16:39 GMT-03:00 Andre Oliveira <andreolsouza@yahoo.com.br>:
Pessoal boa tarde,
estou com dois bancos de dados com a estrutura do  USArrests que vem no R só que repetido no tempo.  USArrests2007,  USArrests2009,  USArrests2010. Gostaria de orientação de como anexar estes dados para em um banco de dados único e rodar PCA, Plotar,  dendograma e a análise de fatores.  Pelo que percebi em meus devo  fazer o seguinte.  Montar um banco de dados com os três bancos e tirar a soma ou média. Não sei se fere princípios da análise.

dados= data.frame(USArrests2007,  USArrests2009,  USArrests2010)   # Não sei se é data.frame aqui mesmo!

V1=tapply(V1,grupos,mean)
.
.
.
.
.
Vn=tapply(Vn,grupos,mean) 

dadosmedio=cbind(V1, ........................,Vn)
hclust(dist(dadosmedio)
prcomp(dadosmédio)

Ou usar a estrutura com  Vn=tapply(Vn,grupos,sum) em vez de Vn=tapply(Vn,grupos,mean).  Ou usar o próprio banco formado por  USArrests2007,  USArrests2009,  USArrests2010.

Caso falei besteira, desconsidere. Ficarei agradecido por sugestões.


obrigado pela atenção





 


André Oliveira Souza.
Graduação em Matemática, mestrado em estatística aplicada.Instituto Federal de Educação, Ciência e Tecnologia do Espirito Santo.  IFES


_______________________________________________
R-br mailing list
R-br@listas.c3sl.ufpr.br
https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.