[R-br] análise multivariada em grandes dados
Leonardo Fontenelle
leonardof em leonardof.med.br
Segunda Julho 11 18:07:36 BRT 2016
A CRAN Task View para High Performance Computing[1] pode lhe dar algumas
opções. Este artigo sobre Big Data no R[2] também é muito citado.
Você precisa mesmo de manter seus dados fora da RAM? Não é fácil
estourar a memória RAM com dados de PNAD, embora eu nunca tenha tentado
usar todos dados do Censo de uma só vez. Além disso, você frequentemente
pode restringir-se apenas a um subconjunto de variáveis, o que facilita
em muito a leitura dos dados e sua alocação na RAM.
Se o motivo de você achar isso é o read.fwf travar, tente importar os
dados com alguma alternativa antes de concluir isso. Uma opção é usar a
função do pacote readr, e outra é converter para csv usando o fwf2csv do
pacote descr e então importar com o fread do pacote data.table.
Talvez a dificuldade maior seja com funções pouco otimizadas. Quando
alguém se dá ao trabalho de escrever algo em C ou C++, o resultado
costuma ser mais escalável do que código escrito. Além disso, é
necessário tomar cuidado com laços *for* ou *apply* (que é um *for*
disfarçado). Também sugiro considerar com carinho o uso de
data.table[3] em vez de data.frame (outra alternativa parece ser o
tibble[4], mas não testei).
Espero ter ajudado.
Leonardo Ferreira Fontenelle[5]
Em Seg 11 jul. 2016, às 12:24, Edimeire Alexandra Pinto via R-br
escreveu:
> OI Gente.
>
> Eu descobri que para grandes conjuntos de dados, tipo Censo, Pnad,
> etc, existe o pacote ffbase, dplyr, sendo que para usar modelos
> lineares generalizados, podemos usar o pacote. biglm.
>
> No entanto, preciso usar técnicas multivariadas, tipo Análise Fatorial
> e Discriminante. Alguém sabe qual posso usar quando trabalhamos com
> dados que "explodem" a memória do R?
>
> Agradeço a todos.
> _________________________________________________
> R-br mailing list
> R-br em listas.c3sl.ufpr.br
> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
> código mínimo reproduzível.
Links:
1. https://cran.r-project.org/web/views/HighPerformanceComputing.html
2. http://www.r-bloggers.com/five-ways-to-handle-big-data-in-r/
3. https://cran.r-project.org/web/packages/data.table/index.html
4. https://cran.r-project.org/web/packages/tibble/index.html
5. http://lattes.cnpq.br/9234772336296638
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20160711/467ada34/attachment.html>
Mais detalhes sobre a lista de discussão R-br