[R-br] [OFF-topic] Processar uma base de dados grande - ENEM 2012 - 6 milhões de registros - só 40 segundos
Roney Fraga Souza
roneyfraga em gmail.com
Sábado Outubro 25 15:47:59 BRST 2014
Pessoal, eu fiz um teste com o MonetDB importando um arquivo csv do censo demográfico 2010 do estado de São Paulo, que tem 2.2 gb, 224 colunas e 4038218 linhas. Importou em 109.1149 segundos.
Meu computador (MacBook Pro) tem processador i7 da primeira geração, 16 gb de ram e ssd.
##------------------------------------------------------
library(MonetDB.R)
#criando um banco de dados
startscript <- monetdb.server.setup(
database.directory = paste0( getwd() , "/MonetDB" ) ,
"",
dbname = "db1",
dbport = 50002
)
pid <- monetdb.server.start(startscript)
conn <- dbConnect(MonetDB.R(), "monetdb://localhost:50002/db1")
# 224 colunas
# 4038218 linhas
# arquivo com 2.2 GB
# 109.149 segundos
system.time({
monetdb.read.csv(conn, 'censo00sp1.csv', "censo00sp", 4038218)
})
##------------------------------------------------------
Att
Roney
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20141025/38bf7a80/attachment.html>
Mais detalhes sobre a lista de discussão R-br