
Amigos da lista, Estou praticando análise de componentes principais para reduzir o número de variáveis para uma análise de cluster. Encontrei um exercício e algumas apostilas do R para análise multivariada. Seguem os dados do exercício, que pede para usar 2 componentes principais:
Lista1MB213 city bread hamburger butter apples tomatoes 1 Anchorage 70.9 135.6 155.0 63.9 100.1 2 Atlanta 36.4 111.5 144.3 53.9 95.9 3 Baltimore 28.9 108.8 151.0 47.5 104.5 4 Boston 43.2 119.3 142.0 41.1 96.5 5 Buffalo 34.5 109.9 124.8 35.6 75.9 6 Chicago 37.1 107.5 145.4 65.1 94.2 7 Cincinnati 37.1 118.1 149.6 45.6 90.8 8 Cleveland 38.5 107.7 142.7 50.3 93.2 9 Dallas 35.5 116.8 142.5 62.4 90.7 10 Detroit 40.8 108.8 140.1 39.7 96.1 11 Honolulu 50.9 131.7 154.4 65.0 93.9 12 Houston 35.1 102.3 150.3 59.3 84.5 13 KansasCity 35.1 99.8 162.3 42.6 87.9 14 LosAngeles 36.9 96.2 140.4 54.7 79.3 15 Milwaukee 33.3 109.1 123.2 57.7 87.7 16 Minneapolis 32.5 116.7 135.1 48.0 89.1 17 NewYork 42.7 130.8 148.7 47.6 92.1 18 Philadelphia 42.9 126.9 153.8 51.9 101.5 19 Pittsburgh 36.9 115.4 138.9 43.8 91.9 20 StLouis 36.9 109.8 140.0 46.7 79.0 21 SanDiego 32.5 84.5 145.9 48.5 82.3 22 SanFrancisco 40.0 104.6 139.1 59.2 81.9 23 Seattle 32.2 105.4 136.8 54.0 88.6 24 Washington 31.8 116.7 154.8 57.6 86.6
dados <- Lista1MB213[,2:6] standardise <- as.data.frame(scale(dados)) lanche.pca <- prcomp(standardise)
summary(lanche.pca) Importance of components: PC1 PC2 PC3 PC4 PC5 Standard deviation 1.5591 0.9654 0.9134 0.7252 0.52613 Proportion of Variance 0.4862 0.1864 0.1669 0.1052 0.05536 Cumulative Proportion 0.4862 0.6726 0.8394 0.9446 1.00000
A minha dúvida é como distribuir as cinco variáveis no dois componentes PC1 e PC2 que juntos explicam 67,26% da variância. Como seria a equação de combinação linear? Há muito tempo li em um tutorial do SPSS a solução, mas não lembro onde encontrá-lo. Agradeço antecipadamente qualquer ajuda. -- Atenciosamente, Prof. Carlos A. S. de Andrade LAPEA - Laboratório de Pesquisa em Economia Aplicada e Engenharia de Produção Universidade Federal de Campina Grande. Centro de Humanidades Unidade Acadêmica de Economia

Veja a posicao loadings do seu ajuste de PCA. lanche.pca$loadings att, FH 2013/2/13 Carlos Andrade <prf.cantonio@gmail.com>
Amigos da lista,
Estou praticando análise de componentes principais para reduzir o número de variáveis para uma análise de cluster. Encontrei um exercício e algumas apostilas do R para análise multivariada.
Seguem os dados do exercício, que pede para usar 2 componentes principais:
Lista1MB213 city bread hamburger butter apples tomatoes 1 Anchorage 70.9 135.6 155.0 63.9 100.1 2 Atlanta 36.4 111.5 144.3 53.9 95.9 3 Baltimore 28.9 108.8 151.0 47.5 104.5 4 Boston 43.2 119.3 142.0 41.1 96.5 5 Buffalo 34.5 109.9 124.8 35.6 75.9 6 Chicago 37.1 107.5 145.4 65.1 94.2 7 Cincinnati 37.1 118.1 149.6 45.6 90.8 8 Cleveland 38.5 107.7 142.7 50.3 93.2 9 Dallas 35.5 116.8 142.5 62.4 90.7 10 Detroit 40.8 108.8 140.1 39.7 96.1 11 Honolulu 50.9 131.7 154.4 65.0 93.9 12 Houston 35.1 102.3 150.3 59.3 84.5 13 KansasCity 35.1 99.8 162.3 42.6 87.9 14 LosAngeles 36.9 96.2 140.4 54.7 79.3 15 Milwaukee 33.3 109.1 123.2 57.7 87.7 16 Minneapolis 32.5 116.7 135.1 48.0 89.1 17 NewYork 42.7 130.8 148.7 47.6 92.1 18 Philadelphia 42.9 126.9 153.8 51.9 101.5 19 Pittsburgh 36.9 115.4 138.9 43.8 91.9 20 StLouis 36.9 109.8 140.0 46.7 79.0 21 SanDiego 32.5 84.5 145.9 48.5 82.3 22 SanFrancisco 40.0 104.6 139.1 59.2 81.9 23 Seattle 32.2 105.4 136.8 54.0 88.6 24 Washington 31.8 116.7 154.8 57.6 86.6
dados <- Lista1MB213[,2:6]
standardise <- as.data.frame(scale(dados))
lanche.pca <- prcomp(standardise)
summary(lanche.pca) Importance of components: PC1 PC2 PC3 PC4 PC5 Standard deviation 1.5591 0.9654 0.9134 0.7252 0.52613 Proportion of Variance 0.4862 0.1864 0.1669 0.1052 0.05536 Cumulative Proportion 0.4862 0.6726 0.8394 0.9446 1.00000
A minha dúvida é como distribuir as cinco variáveis no dois componentes PC1 e PC2 que juntos explicam 67,26% da variância. Como seria a equação de combinação linear? Há muito tempo li em um tutorial do SPSS a solução, mas não lembro onde encontrá-lo. Agradeço antecipadamente qualquer ajuda.
-- Atenciosamente,
Prof. Carlos A. S. de Andrade LAPEA - Laboratório de Pesquisa em Economia Aplicada e Engenharia de Produção Universidade Federal de Campina Grande. Centro de Humanidades Unidade Acadêmica de Economia
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.

2013/2/12 Carlos Andrade <prf.cantonio@gmail.com>:
Estou praticando análise de componentes principais para reduzir o número de variáveis para uma análise de cluster. Encontrei um exercício e algumas apostilas do R para análise multivariada.
Seguem os dados do exercício, que pede para usar 2 componentes principais:
Lista1MB213
[...] Não sei se é o que você está procurando e o código abaixo pode não ser a melhor forma de atingir o objetivo, mas talvez ajude: library(psych) lanche.pca <- principal(Lista1MB213[, 2:6], nfactors = 2, scores = TRUE) Lista1MB213$pc1 <- lanche.pca$scores[, 1] Lista1MB213$pc2 <- lanche.pca$scores[, 2] lanche.pca plot(lanche.pca) -- Jakson Alves de Aquino Universidade Federal do Ceará Departamento de Ciências Sociais www.lepem.ufc.br/aquino.php

Antes de tudo, agradeço as colaborações dos amigos. Acho que não expressei bem minha questão. Minha dúvida é como usar os resultados do PCA pelo comando prcomp() para fazer a combinação linear que resume as cinco variáveis em duas para proceder à análise de cluster com os comandos kmeans() e hclust() Em 13 de fevereiro de 2013 10:42, Jakson Alves de Aquino <jalvesaq@gmail.com
escreveu:
2013/2/12 Carlos Andrade <prf.cantonio@gmail.com>:
Estou praticando análise de componentes principais para reduzir o número de variáveis para uma análise de cluster. Encontrei um exercício e algumas apostilas do R para análise multivariada.
Seguem os dados do exercício, que pede para usar 2 componentes principais:
Lista1MB213
[...]
Não sei se é o que você está procurando e o código abaixo pode não ser a melhor forma de atingir o objetivo, mas talvez ajude:
library(psych) lanche.pca <- principal(Lista1MB213[, 2:6], nfactors = 2, scores = TRUE) Lista1MB213$pc1 <- lanche.pca$scores[, 1] Lista1MB213$pc2 <- lanche.pca$scores[, 2] lanche.pca plot(lanche.pca)
-- Jakson Alves de Aquino Universidade Federal do Ceará Departamento de Ciências Sociais www.lepem.ufc.br/aquino.php _______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- Atenciosamente, Prof. Carlos A. S. de Andrade LAPEA - Laboratório de Pesquisa em Economia Aplicada e Engenharia de Produção Universidade Federal de Campina Grande. Centro de Humanidades Unidade Acadêmica de Economia
participantes (3)
-
Carlos Andrade
-
FHRB Toledo
-
Jakson Alves de Aquino