[R-br] [OFF-topic] Processar uma base de dados grande - ENEM 2012 - 6 milhões de registros - só 40 segundos

Roney Fraga Souza roneyfraga em gmail.com
Sábado Outubro 25 15:47:59 BRST 2014


Pessoal, eu fiz um teste com o MonetDB importando um arquivo csv do censo demográfico 2010 do estado de São Paulo, que tem 2.2 gb, 224 colunas e 4038218 linhas. Importou em 109.1149 segundos.

Meu computador (MacBook Pro) tem processador i7 da primeira geração, 16 gb de ram e ssd.

##------------------------------------------------------
library(MonetDB.R) 

#criando um banco de dados
startscript <- monetdb.server.setup(  
                                    database.directory = paste0( getwd() , "/MonetDB" ) ,
                                    "", 
                                    dbname = "db1", 
                                    dbport = 50002 
                                    )
pid <- monetdb.server.start(startscript) 
conn <- dbConnect(MonetDB.R(), "monetdb://localhost:50002/db1")

# 224 colunas
# 4038218 linhas
# arquivo com 2.2 GB
# 109.149 segundos
system.time({
    monetdb.read.csv(conn, 'censo00sp1.csv', "censo00sp", 4038218)
})
##------------------------------------------------------

Att
Roney
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20141025/38bf7a80/attachment.html>


Mais detalhes sobre a lista de discussão R-br