[R-br] RES: [OFF-topic] Processar uma base de dados grande - ENEM 2012 - 6 milhões de registros - só 40 segundos

Daniel Marcelino dmsilva.br em gmail.com
Segunda Outubro 27 12:26:39 BRST 2014


Uma antiga solução para arquivos grandes que já usei é ler de um texto
comprimido. O R é muito eficiente em comprimir e descomprimir eles.
Talvez, isso a seja a solução "nativa" mais simples, porém não tanto
eficiente.

read.table("dados.txt", sep=",")
read.table("dados.txt.gz", sep=",")

D

2014-10-27 11:05 GMT-02:00 Manoel Galdino <mcz.fea em gmail.com>:
> Se você tiver memória ram suficiente, experimente o fread do data.table.
>
> abçs
> M
>
> 2014-10-27 10:19 GMT-02:00 Edson Lira <edinhoestat em yahoo.com.br>:
>
>> Experimenta o pacote ff
>>
>> Edson Lira
>> Estatístico
>> Manaus-Amazonas
>>
>>
>> Em Domingo, 26 de Outubro de 2014 16:22, Mauro Sznelwar
>> <sznelwar em uol.com.br> escreveu:
>>
>>
>> Existe este pacote para o Windows? Tentei baixar e disse que não está
>> disponível para a versão R 3.1
>>
>>
>>
>> Pessoal, eu fiz um teste com o MonetDB importando um arquivo csv do censo
>> demográfico 2010 do estado de São Paulo, que tem 2.2 gb, 224 colunas e
>> 4038218 linhas. Importou em 109.1149 segundos.
>>
>> Meu computador (MacBook Pro) tem processador i7 da primeira geração, 16 gb
>> de ram e ssd.
>>
>> ##------------------------------------------------------
>> library(MonetDB.R)
>>
>> #criando um banco de dados
>> startscript <- monetdb.server.setup(
>>                                     database.directory = paste0( getwd() ,
>> "/MonetDB" ) ,
>>                                     "",
>>                                     dbname = "db1",
>>                                     dbport = 50002
>>                                     )
>> pid <- monetdb.server.start(startscript)
>> conn <- dbConnect(MonetDB.R(), "monetdb://localhost:50002/db1")
>>
>> # 224 colunas
>> # 4038218 linhas
>> # arquivo com 2.2 GB
>> # 109.149 segundos
>> system.time({
>>     monetdb.read.csv(conn, 'censo00sp1.csv', "censo00sp", 4038218)
>> })
>> ##------------------------------------------------------
>>
>> Att
>> Roney
>>
>>
>> ________________________________
>> Este email está limpo de vírus e malwares porque a proteção do avast!
>> Antivírus está ativa.
>>
>>
>> _______________________________________________
>> R-br mailing list
>> R-br em listas.c3sl.ufpr.br
>> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
>> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
>> código mínimo reproduzível.
>>
>>
>> _______________________________________________
>> R-br mailing list
>> R-br em listas.c3sl.ufpr.br
>> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
>> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
>> código mínimo reproduzível.
>
>
>
>
> --
> Manoel Galdino
> https://sites.google.com/site/galdinomcz/
>
> _______________________________________________
> R-br mailing list
> R-br em listas.c3sl.ufpr.br
> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código
> mínimo reproduzível.


Mais detalhes sobre a lista de discussão R-br