Trabalho com os dados dos censos usando R. A solução para processamento paralelo, big data, etc., usando R é o Revolution Analytics (<a href="http://www.revolutionanalytics.com/">http://www.revolutionanalytics.com/</a>). <div>
<br></div><div>abs<br><br><div class="gmail_quote">2012/10/16 Roney Fraga <span dir="ltr"><<a href="mailto:roneyfraga@gmail.com" target="_blank">roneyfraga@gmail.com</a>></span><br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Caros,<br><div class="gmail_quote"><div><div dir="ltr"><div><br></div><div>Estou trabalhando com os dados dos
censos populacionais de 2000 e 2010. A minha dificuldade é o volume de
dados, pois cada censo tem aproximadamente 20 milhões de linhas.
Considerando os dados estão em arquivos .csv, um único aquivo de 12 GB
para o censo de 2010 e um arquivo para cada estado no censo de 2000, que
totalizam 11 GB. Utilizo um notebook com processador Intel Core i5
2410M, 8 GB de ram com 3 GB de SWAP e o sistema operacional é o Arch
Linux. Tenho quatro dúvidas que estão abaixo em meio da minha explicação sobre os problemas que venho enfrentando.<br></div>
<div><br></div><div>Para ler os arquivos .csv conheço as seguintes opções:<br><br></div><div><div>a) trabalhar com um banco de dados relacional. </div><div>R.: estou com um problema com o postgresql que ainda não tenho solução, portanto, essa alternativa esta descartada no momento.</div>
<div><br></div><div>b) utilizar o sqldf.</div><div>R.: acredito que o
sqldf não é eficiênte para trabalhar com arquivos grandes, o processo é
encerrado antes de concluir a operação. Exemplo:</div><div><br></div><div>> library(sqldf)</div>
<div>> read.csv.sql('censo00ba1.csv', sql = "select V0102 from file", header = TRUE, sep = ",")</div><div>[ reached getOption("max.print") -- omitted 1498127 rows ]</div><div>Warning messages:</div>
<div>1: closing unused connection 4 (censo00ba1.csv) </div><div>2: closing unused connection 5 (censo00ba1.csv) </div><div><br></div><div>1ª dúvida: isso sempre acontece com o sqldf, ou alguém consegue utilizá-lo com para ler arquivos grandes?</div>
<div><br></div><div>c) utilizar o comando cut e grep do Linux/Mac para
filtrar os dados e ter um arquivo .csv menor, dessa forma é possível ler
o arquivo pelo comando do R, read.csv().</div><div>R.: utilizei essa opção. Exemplo:</div>
<div>cut -d',' -f1,4,5,6,10,79,81,84,91,92,95,97,111,113,114,149,150,188 br2010.csv > br2010b.csv</div><div><br></div><div>Uma
vez superada a dificuldade da importação dos dados deletei algumas
coisas e fiquei com três arquivos com as seguintes dimensões:</div>
<div>> dim(cs);dim(cs2000);dim(cs2010)</div><div>[1] 6077327 23<span style="white-space:pre-wrap"> </span> # censos 2000 e 2010 </div><div>[1] 2865716 23<span style="white-space:pre-wrap"> </span> # censo 2000</div>
<div>[1] 3211611 23<span style="white-space:pre-wrap"> </span> # censo 2010</div><div><br></div></div><div>Quanto ao processamento:<br><br></div><div><div>d) Consigo rodar regressão simples para o censo de 2000 e para o censo de 2010 separadamente, como segue exemplo: </div>
<div><br></div><div>> ma <- lm(lnrenda ~ factor(ee) + idade +
idade2 + factor(tt) + factor(cor.raca) + rural + feminino + migrante +
factor(UF), data=cs2000)</div><div>> mb <- lm(lnrenda ~ factor(ee)
+ idade + idade2 + factor(tt) + factor(cor.raca) + rural + feminino +
migrante + factor(UF), data=cs2010)</div>
<div><br></div><div>mas não consigo rodar o mesmo modelo para os dados
do arquivo 'cs', que tem 6.077.327 linhas, que é censo 2000 mais censo
2010. Pois, aparece a seguinte mensagem de erro:</div><div>> mc <-
lm(lnrenda ~ factor(ee) + idade + idade2 + factor(tt) +
factor(cor.raca) + rural + feminino + migrante + factor(UF) +
factor(ano), data=cs)</div>
<div>Error: cannot allocate vector of size 2.0 Gb</div><div><br></div></div><div>2ª dúvida: qual procedimento posso utilizar para solucionar esse problema de rodar a regressão das 6.077.327 observações?</div><div>Um amigo indicou aumentar a memória SWAP, essa é uma boa opção?</div>
<div>
<div><br></div><div>3ª dúvida: ao realizar um processo que demanda muita
memória ram o R não consegue realizar outro processo pesado em seguida,
pois a memória fica ocupada. Exemplo, ao rodar uma regressão em uma
base de dados com 3 milhões de linhas eu não consigo realizar outra
regressão pq a memória fica cheia. Dúvida, tem como 'limpar' os dados da
memória para poder realizar outros cálculos?</div>
<div><br></div><div>4ª dúvida: trabalhar com paralelismo pode auxiliar nesse tipo de processamento?</div><div><br></div><div><br></div><div>Grato pela atenção.</div><span class="HOEnZb"><font color="#888888"><div>Roney </div>
</font></span></div></div></div></div>
<br>_______________________________________________<br>
R-br mailing list<br>
<a href="mailto:R-br@listas.c3sl.ufpr.br">R-br@listas.c3sl.ufpr.br</a><br>
<a href="https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br" target="_blank">https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br</a><br>
Leia o guia de postagem (<a href="http://www.leg.ufpr.br/r-br-guia" target="_blank">http://www.leg.ufpr.br/r-br-guia</a>) e forneça código mínimo reproduzível.<br></blockquote></div><br><br clear="all"><div><br></div>-- <br>
Diogo Ferrari<div>University of San Paulo (USP)</div><div>Faculty of Philosophy, Languages, Literature and Human Sciences (FFLCH)</div><div>Department of Political Science (DCP)</div><div>San Paulo/SP - Brazil</div><div>E-mail: <a href="mailto:diogo.ferrari@usp.br" target="_blank">diogo.ferrari@usp.br</a></div>
<div><br>Open Source! Use R! Use Linux!</div><div><br></div><div>"A vida é a arte de tirar conclusões suficientes de dados insuficientes"
</div><br>
</div>