<div dir="ltr">André,<div><br></div><div>A organização dos dados "por ano" dependerão muito do que você espera fazer como análise em relação a esse fator (em princípio o ano não poderia ser considerado uma variável contínua).</div><div><br></div><div>De um modo geral, a menos que algo espetacular ocorresse em alguma cidade, os dados das variáveis de ano a ano seriam muito correlacionadas de sorte que uma PCA sobre elas apenas redundaria o óbvio...</div><div><br></div><div>Se você puder indicar com mais clareza qual é o objetivo de fazer a PCA com dados de vários anos talvez a gente possa chegar a algum consenso...</div><div><br></div><div>HTH</div><div>--</div><div>Cesar Rabak</div></div><div class="gmail_extra"><br><div class="gmail_quote">2015-04-12 22:00 GMT-03:00 Andre Oliveira <span dir="ltr"><<a href="mailto:andreolsouza@yahoo.com.br" target="_blank">andreolsouza@yahoo.com.br</a>></span>:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div><div style="color:#000;background-color:#fff;font-family:bookman old style,new york,times,serif;font-size:16px"><div><span style="font-family:'Helvetica Neue','Segoe UI',Helvetica,Arial,'Lucida Grande',sans-serif;font-size:13px">Cesar Rabak,</span><span></span></div><div dir="ltr"><span style="font-family:'Helvetica Neue','Segoe UI',Helvetica,Arial,'Lucida Grande',sans-serif;font-size:13px">obrigado pela resposta. Esta é a questão como organizar os três bancos de dados levando em conta a variável ano, pois, pelo que tenho olhado  as funções </span>hclust() e prcomp() não extrai os PCAs e nem o dendograma replicando ano. Todos os exemplos do R trabalham com dados de um ano apenas. O objetivo é agrupar as cidades e os bancos de dados  <span style="font-family:'Helvetica Neue','Segoe UI',Helvetica,Arial,'Lucida Grande',sans-serif;font-size:13px">USArrests2007, USArrests2009 e USArrests2010 são fictícios e estão ai apenas para ilustrar que tenho 3 bancos com mesma estrutura do  </span><span style="font-family:'Helvetica Neue','Segoe UI',Helvetica,Arial,'Lucida Grande',sans-serif;font-size:13px">USArrests. </span></div><div dir="ltr"><span style="font-family:'Helvetica Neue','Segoe UI',Helvetica,Arial,'Lucida Grande',sans-serif;font-size:13px"><br></span></div><div dir="ltr"><font face="Helvetica Neue, Segoe UI, Helvetica, Arial, Lucida Grande, sans-serif"><span style="font-size:13px">Dado que tenho apenas o  </span></font><span style="font-family:'Helvetica Neue','Segoe UI',Helvetica,Arial,'Lucida Grande',sans-serif;font-size:13px">USArrests,  tudo pode ser  resolvido com o CMR com pequenas variações de escala e padronização das variáveis se desejar.</span></div><div dir="ltr"><span style="font-family:'Helvetica Neue','Segoe UI',Helvetica,Arial,'Lucida Grande',sans-serif;font-size:13px"><br></span></div><div dir="ltr"><span>hc=hclust(dist(</span><span style="font-family:'Helvetica Neue','Segoe UI',Helvetica,Arial,'Lucida Grande',sans-serif;font-size:13px">USArrests)</span>)</div><div dir="ltr">plot(hc)</div><div dir="ltr"><span style="font-family:'Helvetica Neue','Segoe UI',Helvetica,Arial,'Lucida Grande',sans-serif;font-size:13px"></span></div><div dir="ltr"><span>summary(prcomp(</span><span style="font-family:'Helvetica Neue','Segoe UI',Helvetica,Arial,'Lucida Grande',sans-serif;font-size:13px">USArrests</span>))</div><div dir="ltr"><span style="font-family:'Helvetica Neue','Segoe UI',Helvetica,Arial,'Lucida Grande',sans-serif;font-size:13px"><br></span></div><div dir="ltr"><span style="font-family:'Helvetica Neue','Segoe UI',Helvetica,Arial,'Lucida Grande',sans-serif;font-size:13px">Obrigado </span></div><span class=""><div dir="ltr"><span style="font-family:'Helvetica Neue','Segoe UI',Helvetica,Arial,'Lucida Grande',sans-serif;font-size:13px"><br></span></div><div dir="ltr"><span style="font-family:'Helvetica Neue','Segoe UI',Helvetica,Arial,'Lucida Grande',sans-serif;font-size:13px"><br></span></div><div dir="ltr"><span style="font-family:'Helvetica Neue','Segoe UI',Helvetica,Arial,'Lucida Grande',sans-serif;font-size:13px"><br></span></div><div dir="ltr"><br></div><div dir="ltr"><br></div><div></div><div> </div><div><div>
<br>
<br>André Oliveira Souza. 
<br>Graduação em Matemática, mestrado em estatística aplicada.Instituto Federal de Educação, Ciência e Tecnologia do Espirito Santo.  IFES
<br>
<br></div></div>  <br><div><br><br></div></span><div><div class="h5"><div style="display:block"> <div style="font-family:bookman old style,new york,times,serif;font-size:16px"> <div style="font-family:HelveticaNeue,Helvetica Neue,Helvetica,Arial,Lucida Grande,sans-serif;font-size:16px"> <div dir="ltr"> <font size="2" face="Arial"> Em Domingo, 12 de Abril de 2015 18:14, Cesar Rabak <<a href="mailto:cesar.rabak@gmail.com" target="_blank">cesar.rabak@gmail.com</a>> escreveu:<br> </font> </div>  <br><br> <div><div><div><div dir="ltr">Embora você cite os procedimentos de PCA e plotar dendrograma e "análise dos fatores", você não dá muita informação de porque você precisa fazer essa análise e a que conclusões deseja chegar ou quais hipóteses avaliar.<div><br clear="none"></div><div>Não sei onde estão os dataframes USArrests2007, USArrests2009 e USArrests2010, tendo nos meus defaults apenas o USArrests. Considerando este último, vê-se que a estrutura dele é 50 linhas com cada uma um estado americano por quatro variáveis (três crimes e uma com a população), se você  for anexar bancos com estatísticas de diferentes anos você terá que considerar como colocar a variável ano em jogo e como analisar os estados americanos para manter apenas as cinquenta linhas...</div><div><br clear="none"></div><div>A análise de componentes principais já faz todos os cálculos necessários, assim calcular as médias em separado só faria sentido para alguma análise descritiva (incidentalmente você pode [dependendo do pacote que use para fazer a PCA] escolher se a análise será centrada na média de cada variável ou não).<br clear="none"><div><br clear="none"></div><div>Quanto aos comandos R que você colocou, eles não formam um CMR e por isso não dá para comentar a respeito.</div></div><div><br clear="none"></div><div>HTH</div><div>--</div><div>Cesar Rabak</div></div><div><br clear="none"><div>2015-04-10 16:39 GMT-03:00 Andre Oliveira <span dir="ltr"><<a rel="nofollow" shape="rect" href="mailto:andreolsouza@yahoo.com.br" target="_blank">andreolsouza@yahoo.com.br</a>></span>:<br clear="none"><blockquote style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div><div><div style="color:#000;background-color:#fff;font-family:bookman old style,new york,times,serif;font-size:16px"><div dir="ltr"><span>Pessoal boa tarde,</span></div><div dir="ltr"><span>estou com dois bancos de dados com a estrutura do  USArrests que vem no R só que repetido no tempo.  USArrests2007,  USArrests2009,  USArrests2010. Gostaria de orientação de como anexar estes dados para em um banco de dados único e rodar PCA, Plotar,  dendograma e a análise de fatores.  Pelo que percebi em meus devo  fazer o seguinte.  Montar um banco de dados com os três bancos e tirar a soma ou média. Não sei se fere princípios da análise. <br clear="none"></span></div><div dir="ltr"><br clear="none"></div><div dir="ltr"><span>dados= data.frame(USArrests2007,  USArrests2009,  USArrests2010</span>)   # Não sei se é data.frame aqui mesmo! <br clear="none"><span></span></div><div dir="ltr"><span><br clear="none"></span></div><div dir="ltr"><span>V1=tapply(V1,grupos,mean) <br clear="none"></span></div><div dir="ltr"><span>.</span></div><div dir="ltr"><span>.</span></div><div dir="ltr"><span>.</span></div><div dir="ltr"><span>.</span></div><div dir="ltr"><span>.</span></div><div dir="ltr"><span>Vn=tapply(Vn,grupos,mean) </span></div><div dir="ltr"><span><br clear="none"></span></div><div dir="ltr"><span>dadosmedio=cbind(V1, ........................,Vn)</span></div><div dir="ltr"><span>hclust(dist(dadosmedio)</span></div><div dir="ltr"><span>prcomp(dadosmédio)</span></div><div dir="ltr"><br clear="none"></div><div dir="ltr">Ou usar a estrutura com  <span>Vn=tapply(Vn,grupos,sum) </span>em vez de <span>Vn=tapply(Vn,grupos,mean).  </span>Ou usar o próprio banco formado por  <span>USArrests2007,  USArrests2009,  USArrests2010. </span><br clear="none"><span></span></div><div dir="ltr"><br clear="none"><span></span></div><div dir="ltr"><span>Caso falei besteira, desconsidere. Ficarei agradecido por sugestões. <br clear="none"></span></div><div dir="ltr"><span><br clear="none"></span></div><div dir="ltr"><span><br clear="none"></span></div><div dir="ltr"><span>obrigado pela atenção<br clear="none"></span></div><div dir="ltr"><br clear="none"><span></span></div><div dir="ltr"><span><br clear="none"></span></div><div dir="ltr"><br clear="none"><span></span></div><div dir="ltr"><span><br clear="none"></span></div><div dir="ltr"><br clear="none"><span></span></div><div dir="ltr"><span></span></div><div> </div><div><div>
<br clear="none">
<br clear="none">André Oliveira Souza. 
<br clear="none">Graduação em Matemática, mestrado em estatística aplicada.Instituto Federal de Educação, Ciência e Tecnologia do Espirito Santo.  IFES
<br clear="none">
<br clear="none"></div></div></div></div></div><br clear="none">_______________________________________________<br clear="none">
R-br mailing list<br clear="none">
<a rel="nofollow" shape="rect" href="mailto:R-br@listas.c3sl.ufpr.br" target="_blank">R-br@listas.c3sl.ufpr.br</a><br clear="none">
<a rel="nofollow" shape="rect" href="https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br" target="_blank">https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br</a><br clear="none">
Leia o guia de postagem (<a rel="nofollow" shape="rect" href="http://www.leg.ufpr.br/r-br-guia" target="_blank">http://www.leg.ufpr.br/r-br-guia</a>) e forneça código mínimo reproduzível.<br clear="none"></blockquote></div><br clear="none"></div></div></div><br><br></div>  </div> </div>  </div></div></div></div></div></blockquote></div><br></div>