[R-br] análise multivariada em grandes dados

Leonardo Fontenelle leonardof em leonardof.med.br
Terça Julho 12 16:41:11 BRT 2016


 * The bigmemory[1] package by Kane and Emerson permits storing large
   objects such as matrices in memory (as well as via files) and uses
   external pointer objects to refer to them. This permits
   transparent access from R without bumping against R's internal
   memory limits. Several R processes on the same computer can also
   share big memory objects.
 
Leonardo Ferreira Fontenelle[2]
 
 
Em Ter 12 jul. 2016, às 16:33, Edimeire Alexandra Pinto escreveu:
> OI, obrigada pela resposta.
>
> Mas acredite, tenho de usar fora da memória RAM. Para manipular os
> dados, consegui com o pacote ffbase e Biglm, no entanto, no caso de
> análise discriminante e fatorial, o R não roda, ele trava e acusam
> excesso de tempo gasto para computar o que eu quero.
>
> Alguém conhece algum pacote?
>
> Em Segunda-feira, 11 de Julho de 2016 18:07, Leonardo Fontenelle via
> R-br <r-br em listas.c3sl.ufpr.br> escreveu:
>
>
> A CRAN Task View para High Performance Computing[3] pode lhe dar
> algumas opções. Este artigo sobre Big Data no R[4] também é
> muito citado.
>
> Você precisa mesmo de manter seus dados fora da RAM? Não é fácil
> estourar a memória RAM com dados de PNAD, embora eu nunca tenha
> tentado usar todos dados do Censo de uma só vez. Além disso, você
> frequentemente pode restringir-se apenas a um subconjunto de
> variáveis, o que facilita em muito a leitura dos dados e sua
> alocação na RAM.
>
> Se o motivo de você achar isso é o read.fwf travar, tente importar os
> dados com alguma alternativa antes de concluir isso. Uma opção é usar
> a função do pacote readr, e outra é converter para csv usando o
> fwf2csv do pacote descr e então importar com o fread do pacote
> data.table.
>
> Talvez a dificuldade maior seja com funções pouco otimizadas. Quando
> alguém se dá ao trabalho de escrever algo em C ou C++, o resultado
> costuma ser mais escalável do que código escrito. Além disso, é
> necessário tomar cuidado com laços *for* ou *apply* (que é um *for*
> disfarçado). Também sugiro considerar com carinho o uso de
> data.table[5] em vez de data.frame (outra alternativa parece ser o
> tibble[6], mas não testei).
>
> Espero ter ajudado.
>
> Leonardo Ferreira Fontenelle[7]
>
>
> Em Seg 11 jul. 2016, às 12:24, Edimeire Alexandra Pinto via R-br
> escreveu:
>> OI Gente.
>>
>> Eu descobri que para grandes conjuntos de dados, tipo Censo, Pnad,
>> etc, existe o pacote ffbase, dplyr, sendo que para usar modelos
>> lineares generalizados, podemos usar o pacote. biglm.
>>
>> No entanto, preciso usar técnicas multivariadas, tipo Análise
>> Fatorial e Discriminante. Alguém sabe qual posso usar quando
>> trabalhamos com dados que "explodem" a memória do R?
>>
>> Agradeço a todos.
>> _________________________________________________
>> R-br mailing list
>> R-br em listas.c3sl.ufpr.br
>> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
>> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
>> código mínimo reproduzível.
>
>
> _______________________________________________
> R-br mailing list
> R-br em listas.c3sl.ufpr.br
> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forne�
> c�igo m�imo reproduz�el.
>
 

Links:

  1. https://cran.r-project.org/web/packages/bigmemory/index.html
  2. http://lattes.cnpq.br/9234772336296638
  3. https://cran.r-project.org/web/views/HighPerformanceComputing.html
  4. http://www.r-bloggers.com/five-ways-to-handle-big-data-in-r/
  5. https://cran.r-project.org/web/packages/data.table/index.html
  6. https://cran.r-project.org/web/packages/tibble/index.html
  7. http://lattes.cnpq.br/9234772336296638
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20160712/1250c069/attachment.html>


Mais detalhes sobre a lista de discussão R-br