[R-br] análise multivariada em grandes dados

Edimeire Alexandra Pinto economatistica em yahoo.com.br
Terça Julho 12 16:33:30 BRT 2016


OI, obrigada pela resposta.
Mas acredite, tenho de usar fora da memória RAM. Para manipular os dados, consegui com o pacote ffbase e Biglm, no entanto, no caso de análise discriminante e fatorial, o R não roda, ele trava e acusam excesso de tempo gasto para computar o que eu quero.
Alguém conhece algum pacote? 

    Em Segunda-feira, 11 de Julho de 2016 18:07, Leonardo Fontenelle via R-br <r-br em listas.c3sl.ufpr.br> escreveu:
 

 A CRAN Task View para High Performance Computing pode lhe dar algumas opções. Este artigo sobre Big Data no R também é muito citado.
 Você precisa mesmo de manter seus dados fora da RAM? Não é fácil estourar a memória RAM com dados de PNAD, embora eu nunca tenha tentado usar todos dados do Censo de uma só vez. Além disso, você frequentemente pode restringir-se apenas a um subconjunto de variáveis, o que facilita em muito a leitura dos dados e sua alocação na RAM.
 Se o motivo de você achar isso é o read.fwf travar, tente importar os dados com alguma alternativa antes de concluir isso. Uma opção é usar a função do pacote readr, e outra é converter para csv usando o fwf2csv do pacote descr e então importar com o fread do pacote data.table.
 Talvez a dificuldade maior seja com funções pouco otimizadas. Quando alguém se dá ao trabalho de escrever algo em C ou C++, o resultado costuma ser mais escalável do que código escrito. Além disso, é necessário tomar cuidado com laços for ou apply (que é um for disfarçado). Também sugiro considerar com carinho o uso de data.table em vez de data.frame (outra alternativa parece ser o tibble, mas não testei).
 Espero ter ajudado.
 Leonardo Ferreira Fontenelle
  Em Seg 11 jul. 2016, às 12:24, Edimeire Alexandra Pinto via R-br escreveu:

OI Gente.
 Eu descobri que para grandes conjuntos de dados, tipo Censo, Pnad, etc, existe o pacote ffbase, dplyr, sendo que para usar modelos lineares generalizados, podemos usar o pacote. biglm.
 No entanto, preciso usar técnicas multivariadas, tipo Análise Fatorial e Discriminante. Alguém sabe qual posso usar quando trabalhamos com dados que "explodem" a memória do R? 
 Agradeço a todos.
_______________________________________________
R-br mailing list
R-br em listas.c3sl.ufpr.br
https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.

 
_______________________________________________
R-br mailing list
R-br em listas.c3sl.ufpr.br
https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forne� c�igo m�imo reproduz�el.

  
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20160712/71f4998a/attachment-0001.html>


Mais detalhes sobre a lista de discussão R-br