[R-br] análise multivariada em grandes dados

Leonardo Fontenelle leonardof em leonardof.med.br
Segunda Julho 11 18:07:36 BRT 2016


A CRAN Task View para High Performance Computing[1] pode lhe dar algumas
opções. Este artigo sobre Big Data no R[2] também é muito citado.
 
Você precisa mesmo de manter seus dados fora da RAM? Não é fácil
estourar a memória RAM com dados de PNAD, embora eu nunca tenha tentado
usar todos dados do Censo de uma só vez. Além disso, você frequentemente
pode restringir-se apenas a um subconjunto de variáveis, o que facilita
em muito a leitura dos dados e sua alocação na RAM.
 
Se o motivo de você achar isso é o read.fwf travar, tente importar os
dados com alguma alternativa antes de concluir isso. Uma opção é usar a
função do pacote readr, e outra é converter para csv usando o fwf2csv do
pacote descr e então importar com o fread do pacote data.table.
 
Talvez a dificuldade maior seja com funções pouco otimizadas. Quando
alguém se dá ao trabalho de escrever algo em C ou C++, o resultado
costuma ser mais escalável do que código escrito. Além disso, é
necessário tomar cuidado com laços *for* ou *apply* (que é um *for*
disfarçado). Também sugiro considerar com carinho o uso de
data.table[3] em vez de data.frame (outra alternativa parece ser o
tibble[4], mas não testei).
 
Espero ter ajudado.
 
Leonardo Ferreira Fontenelle[5]
 
 
Em Seg 11 jul. 2016, às 12:24, Edimeire Alexandra Pinto via R-br
escreveu:
> OI Gente.
>
> Eu descobri que para grandes conjuntos de dados, tipo Censo, Pnad,
> etc, existe o pacote ffbase, dplyr, sendo que para usar modelos
> lineares generalizados, podemos usar o pacote. biglm.
>
> No entanto, preciso usar técnicas multivariadas, tipo Análise Fatorial
> e Discriminante. Alguém sabe qual posso usar quando trabalhamos com
> dados que "explodem" a memória do R?
>
> Agradeço a todos.
> _________________________________________________
> R-br mailing list
> R-br em listas.c3sl.ufpr.br
> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
> código mínimo reproduzível.
 

Links:

  1. https://cran.r-project.org/web/views/HighPerformanceComputing.html
  2. http://www.r-bloggers.com/five-ways-to-handle-big-data-in-r/
  3. https://cran.r-project.org/web/packages/data.table/index.html
  4. https://cran.r-project.org/web/packages/tibble/index.html
  5. http://lattes.cnpq.br/9234772336296638
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20160711/467ada34/attachment.html>


Mais detalhes sobre a lista de discussão R-br